Скачиваний:
0
Добавлен:
16.05.2025
Размер:
1.63 Mб
Скачать

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

федеральное государственное автономное образовательное учреждение высшего образования

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»

Кафедра 41

ПРЕПОДАВАТЕЛЬ

канд. техн. наук,

В. С. Блюм

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

Контрольная работа

Методы подготовки данных для обработки и задача ранжирования

по курсу: Интеллектуальные информационные системы

СТУДЕНТКА ГР. №

Z0411

21.01.25

М. В. Карелина

номер группы

подпись, дата

инициалы, фамилия

Номер студенческого билета: 2020/3477

Санкт-Петербург

2025

Цель работы: изучить методы подготовки данных для обработки в пакете RapidMiner.

Ход работы:

Для начала создам новый набор данных. Был загружен готовый файл Excel с информацией о товарах, ФИО покупателей, цены, дате приобретения/доставки, а также о продавцах. (Рис. 1)

Рисунок 1 - Импортированный файл

Теперь представим эти данные в Visualizations, здесь по оси Х отображен код товара, по Y – цена и стоимость (Рис. 2).

 Рисунок 2 - Обрабатываемый набор данных

Далее начнем создавать процесс подготовки данных. Перетащим кнопкой мышки из вкладки «Repository» на поле «Process» папку с импортированными данными. Соединим выход «Out» папки с точкой «Res» на рабочем поле. Убедимся, что, если подвести курсор к выходу «Out» можно просмотреть атрибуты импортированной таблицы с данными (Рис. 3).

Рисунок 3 - Размещение на рабочем поле исследуемой таблицы

Затем необходимо нажать на кнопку старта.

Как результат выполнения процесса получаем набор данных импортированной таблицы (Рис. 4).

Рисунок 4 - Результат выполнения процесса

Ознакомимся с содержимым и закроем вкладку ExampleSet затем нажмем кнопку Design для того, чтобы вернуться в режим программирования процесса.

Для дальнейшего выполнения работы исключим из рассмотрения фамилии имена и отчества покупателей.

Перейдем во вкладку Operators и изучим ее содержимое. Далее перейдем в папку Blending (Смешенные) и там найдем папку Attributes. Поскольку требуется удалить из таблицы колонку, воспользуемся оператором SelectAttributes.

Удалим соединение выхода Out папки с точкой Res. Перетащим мышкой оператор SelectAttributes на рабочее поле и соединим выход Out папки с входом exa оператора, а его выход exa с точкой Res на рабочем поле. Сделаем активным оператором SelectAttributes щелкнув по нему мышкой так, чтобы он выделился красным цветом. В нижней части окна активизируется вкладка Parameters. (Рис. 5)

Рисунок 5 - Настройка параметров блока SelectAttributes

Настроим параметры работы блока SelectAttributes так, чтобы в окне attributefiltertype было установлено one attribute, в окне selectattribute Фамилия, Имя, Отчество. Запустим голубым треугольником процесс на выполнение и убедимся в том, что колонка ФИО в итоговой выдаче отсутствует (Рис. 6).

Рисунок 6 - Результаты удаления колонки ФИО из обрабатываемого набора данных

С помощью команды File/ SaveProcessAs сохраним полученные результаты в репозитории под именем Лабораторная работа 3.

Продолжим работу с набором данных и решим задачу его сортировки. Снова обратимся к описанию атрибутов исследуемой таблицы и отметим, что в ее составе существует есть колонка код товара. Для упрощения анализа имеющихся данных упорядочим записи по коду товара.

Запустим обучающую систему, найдем соответствующий раздел и убедимся в существовании оператора Sort. Как и в предыдущем случае, исследуя содержимое вкладки Operators найдем его в папке Examples/ Sort.

Командой File / OpenProcess загрузим во вкладку Process ранее сохраненный процесс Лабораторная работа 3.1. Удалим последнюю связь и перетащим мышкой на рабочее поле оператор Sort. Выполним необходимые соединения входов и выходов, сделаем оператор Sort активным и произведем настройку его параметров. Так в окне attributename установим поле сортировки Код товара, а в окне sortingdirection направление сортировки ascending (Рис. 7).

Рисунок 7 - Настройка режима сортировки

Выполним процесс и получим результаты сортировки (Рис. 8).

Рисунок 8 - Результаты сортировки списка абитуриентов

Воспользуемся возможностями системы визуализации и построим круговую диаграмму отображения соотношения количества проданного товара к его коду, также для наглядности был добавлен ответственный за проведение сделки. (Рис. 9).

Рисунок 9 - Отображение результатов сортировки в режиме Visualization

Сохраним созданный процесс как Лабораторная работа 3.2.

Вернемся в режим программирования процесса нажатием кнопки Design и решим задачу фильтрации. Сортировка и фильтрация находятся в одной категории пошагового руководства и следует ожидать, что соответствующие им операторы размещены в близких папках.

Загрузим ранее сохраненный процесс Лабораторная работа 3.2 и добавим последовательно оператор фильтр сделав его активным.

На вкладке Parameters в окне conditionclass зададим значение customfilters. Нажмем кнопку AddFilters и начнем его настройку на рисунке 10. Будем выбирать только те продажи, где количество проданного товара больше или равно 3. Таких оказалось 18. (Рис. 11).

Рисунок 10 –Параметры фильтрации

Рисунок 11 –Результаты фильтрации

Воспользуемся графическим представлением данных и получим текущую ситуацию о количестве и стоимости (рисунок 12). Сохраним созданный процесс как Лабораторная работа 3.2.1.

с

Рисунок 12 –Гистограмма после проведения фильтрации

Вернемся к ранее сохраненному процессу Лабораторная работа 3.2.1. Фильтрация и загрузим его на новый лист. Нам необходимо провести упорядочение данных в соответствии с изложенными выше требованиями. Воспользуемся уже известным нам оператором сортировки Sort. Поскольку условия задачи требуют провести четыре последовательных сортировки, нам придется включить в процесс последовательно четыре таких оператора. В имеющимся наборе данных недостаточно числовых показателей поэтому было добавлено только 2 оператора сортировки. Для первого оператора последовательности attributename устанавливается в положение Код клиента. Для второго оператора attributename Количество. Н всех операторах sorting order в положении ascending. Результаты программирования процесса показаны на рисунке 13, а результаты выполнения на рисунке 14.

Рисунок 13 - Программирование ранжирования

Рисунок 14 - Результаты ранжирования

Графическое представление на рисунке 15. Сохраним созданный процесс как Лабораторная работа 3.2.1.2.

Рисунок 15 - Графическое представление результатов ранжирования

Исходными данными для выполнения лабораторной работы является подготовленная и помещенная в репозиторий таблица данных.

Возьмем таблицу из лабораторной работы №1 (Рис. 16).

Рисунок 16 - Помещенная в репозиторий таблица

Поместим в рабочее поле нашу таблицу и убедимся, что, если подвести курсор к выходу Out можно просмотреть атрибуты импортированной таблицы с данными.

Удалим из дальнейшего рассмотрения колонку Код маршрута. Перейдем во вкладку Operators и изучим ее содержимое. Перейдем в папку Blending (Смешенные) и там найдем папку Attributes. Поскольку требуется удалить из таблицы колонку, воспользуемся оператором SelectAttributes.

Удалим соединение выхода Out папки с точкой Res. Перетащим мышкой оператор SelectAttributes на рабочее поле и соединим выход Out папки с входом exa оператора, а его выход exa с точкой Res на рабочем поле. Сделаем активным оператором SelectAttributes щелкнув по нему мышкой так, чтобы он выделился красным цветом (Рис. 17).

Рисунок 17 - Настройка параметров блока SelectAttributes

Запустим голубым треугольником процесс на выполнение и убедимся в том, что колонка Код маршрута в итоговой выдаче отсутствует (Рис. 18). С помощью команды File/ SaveProcessAs сохраним полученные результаты в репозитории под именем лабораторная работа 1.

Рисунок 18 - Результаты удаления колонки № из обрабатываемого набора данных

Продолжим работу с набором данных и решим задачу его сортировки.

Командой File / OpenProcess загрузим во вкладку Process ранее сохраненный процесс Лабораторная работа 1. Удалим последнюю связь и перетащим мышкой на рабочее поле оператор Sort. Выполним необходимые соединения входов и выходов, сделаем оператор Sort активным и произведем настройку его параметров. Так в окне attributename установим поле сортировки количество путевок, а в окне sortingorder направление сортировки asctnding (рисунок 19).

Рисунок 19 - Настройка режима сортировки

Выполним процесс и получим результаты сортировки (рисунок 20).

Рисунок 20 - Результаты сортировки списка игр

Воспользуемся возможностями системы визуализации и построим гистограмму отображения частоты количества путевок по датам отправления (Рис. 21). Сохраним созданный процесс.

Рисунок 21 - Отображение результатов сортировки в режиме Visualization

Загрузим ранее сохраненный процесс и добавим последовательно оператор фильтр сделав его активным.

На вкладке Parameters в окне conditionclass зададим значение customfilters. Нажмем кнопку AddFilters и начнем его настройку. Будем выбирать путевки только в Индонезию и Мексику. (Рис. 22). На рисунке 23 видно, что осталось 9 путевок.

Рисунок 22 - Параметры

Рисунок 23 - Результаты фильтрации

Сохраним созданный процесс.

Далее необходимо провести упорядочение данных. Произведем дополнительные две сортировки. Для первого оператора attributename устанавливается Стоимость маршрута, для второго оператора attributename Скидка. Результаты процесса сортировки показаны на рисунке 24, а результаты выполнения на рисунке 25.

Рисунок 24 - Программирование ранжирования

Рисунок 25 - Результаты ранжирования

Графическое представление на рисунке 26.

Рисунок 26 - Графическое представление результатов ранжирования

Контрольные вопросы

  1. Из каких разделов состоит пошаговое руководство по продукту?

• Начало работы (Get started)

• Подготовка данных (Prepare data)

• Создание модели (Build a model)

• Сотрудничество и масштабирование (Collaborate and scale)

• Использование Hadoop (Use Hadoop)

  1. Как можно найти интересующий вас оператор RapidMiner?

Для поиска интересующего вас оператора в RapidMiner вы можете воспользоваться справочником, который содержит полные описания всех доступных операторов. Также доступна функция поиска в RapidMiner Studio.

  1. Как можно узнать назначение входов и выходов оператора?

Чтобы выяснить назначение входов и выходов оператора в RapidMiner, следует обратиться к его документации, где содержится информация о входах, выходах и параметрах каждого конкретного оператора.

  1. Как программируются операторы?

В RapidMiner операторы создаются путем разработки пользовательского класса оператора. Вы можете использовать расширения для создания собственных операторов. Кроме того, существуют "супероператоры", состоящие из одного или нескольких подпроцессов. Для использования оператора достаточно перетащить его в область работы процесса и настроить параметры в соответствующей вкладке.

  1. Каково назначение режима визуализации результатов?

Режим визуализации результатов в RapidMiner позволяет представлять и интерпретировать данные анализа. Это помогает быстро и эффективно донести информацию о сложных данных, а также выявить новые тренды и паттерны, которые могли бы остаться незамеченными при анализе необработанных данных.

  1. Какие возможности графического представления данных?

RapidMiner предлагает богатые возможности для графического представления данных. Вы можете быстро создавать различные типы графиков, такие как столбчатые и круговые диаграммы. Данные отображаются в понятном и интерактивном формате, часто в виде графиков, диаграмм или карт.

  1. Как реализована задача фильтрации в RapidMiner?

Задача фильтрации в RapidMiner реализована через оператора "Filter Examples". Этот оператор позволяет выбирать примеры из набора данных, соответствующие заданным условиям, которые могут быть как определены пользователем, так и проставлены заранее.

  1. Как реализована задача сортировки в RapidMiner?

Для реализации сортировки в RapidMiner используется оператор "Sort". Этот оператор сортирует данные в порядке возрастания или убывания на основе указанных атрибутов. Атрибуты для сортировки задаются с помощью параметра “sort_by”, а порядок сортировки (возрастание или убывание) определяется настройкой параметра “sorting order”.

  1. Как можно удалить столбец данных?

Чтобы удалить столбец в RapidMiner, используйте оператор “Select Attributes”. Выберите тип атрибута и укажите тот атрибут (столбец), который хотите удалить, затем отметьте опцию "invert selection".

  1. Как можно реализовать сортировку данных в таблице по нескольким параметрам?

Для сортировки данных в таблице по нескольким атрибутам в RapidMiner применяйте оператор “Sort” с указанием нескольких атрибутов. При наличии нескольких атрибутов данные сначала сортируются по первому, а затем подмножества с одинаковыми значениями первого атрибута сортируются по второму и так далее.

Вывод

Было произведено ознакомление со структурой и содержанием пошагового руководства по продукту RapidMiner. Это содействовало лучшему пониманию использования различных функций и инструментов в RapidMiner. Также была освоена способность находить соответствующие разделы руководства и воспользоваться ими в процессе работы.

Были выделены группы задач на программирование процесса применительно к собственной таблице данных. В результате были решены задачи удаления, сортировки, фильтрации. Это помогло лучше понять, как данные могут быть подготовлены для последующего анализа.

В общем, данная лабораторная работа оказалась весьма познавательной. Был приобретен ценный опыт работы с RapidMiner Studio, и в будущем планируется применение этих навыков в проектах по анализу данных.

Соседние файлы в предмете Интеллектуальные информационные системы
  • #
    16.05.20251.18 Mб01.docx
  • #
    16.05.20251.63 Mб03.docx
  • #
    16.05.2025370.53 Кб05.docx
  • #
    16.05.20258.78 Кб0Лист Microsoft Excel.xlsx