Скачиваний:
0
Добавлен:
16.05.2025
Размер:
1.18 Mб
Скачать

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

федеральное государственное автономное образовательное учреждение высшего образования

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»

Кафедра 41

ПРЕПОДАВАТЕЛЬ

канд. техн. наук,

В. С. Блюм

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

Контрольная работа

Начальное знакомство со средой RappidMinerStudio

по курсу: Интеллектуальные информационные системы

СТУДЕНТКА ГР. №

Z0411

21.01.25

М. В. Карелина

номер группы

подпись, дата

инициалы, фамилия

Номер студенческого билета: 2020/3477

Санкт-Петербург

2025

Цель работы: получение первоначальных навыков работы с программным комплексом RapidMiner.

Ход работы:

Устанавливаем пробную версию пакета RapidMiner.

После ознакомления с процедурой запуска пакета в работу, переходим в начальное окно запуска системы RapidMiner.

При входе в программу сразу открывается дополнительное окно нового проекта. Выбираем в вкладке Start режим Blank.

Во вкладке Repository, открыв папку Samples можно ознакомится в готовых наборах данных (Рис. 1).

Рисунок 1 - Пример доступного набора Products

Колонки в таблице (атрибуты) представляют из себя описание свойства объекта, которого мы рассматриваем. В данном случае – товара(продукта). Строки (экземпляры) – записи данных, определяющих само свойство.

Далее открываем 3 набора Titanic (Рис. 2), Titanic Unlabeled (Рис. 3) и Titanic Training (Рис. 4).

Рисунок 2 - Набор Titanic

Рисунок 3 - Набор Titanic Unlabeled

Рисунок 4 - Набор Titanic Training

Первый (Titanic) совмещает в себе всю информацию о пассажирах. В Titanic Unlabeled нет нескольких атрибутов, например, таких как имен. В Titanic Training столбец «выживший» определен как Label, для особого акцентирования именно на этом свойстве.

В режиме Statistics (Рис. 5) представлены статистические данные по каждому атрибуту. Средние, минимальные и максимальные значения. Режим Visualizations (Рис. 6) дает возможность выстроить практически любую диаграмму для наглядности данных. В рисунке 6 показана точечная диграмма с отношением пола к выживаемости.

Рисунок 5 - Режим Statistics

Рисунок 6 - Режим Visualizations

Для создания нового набора необходимо сделать новую папку (репозиторию) «New Local Repository» (Рис. 7). Далее нажимаем «Import Data» и выбираем уже готовый файл Excel c таблицей данных.

Рисунок 7 - Создание репозитория

Далее настраиваем получаемый набор данных, проверяем правильность автоматически подобранных типов данных (Рис. 8).

Рисунок 8 - Настройка полученных данных

На рисунке 9 показано что данные из Excel перенесены в RapidMiner.

Рисунок 9 - полученный набор

На рисунке 10 показаны статистические данные, по которым мы можем увидеть максимальные и минимальные стоимость маршрута и размер скидки, а также страну с максимальным количеством путевок

Рисунок 10 - Статистический режим

На рисунке 11 показана круговая диаграмма отношения суммы к оплате и кода клиента, также был добавлен критерий Страна для наглядности. График взаимодействия скидки и количества путевок показан на рисунке 12. Также была создана гистограмма отношения количества путевок по определённым странам. (Рис. 13)

Рисунок 11 - Круглая диаграмма

Рисунок 12 - График

Рисунок 13 - Гистограмма

Контрольные вопросы

  1. Каково назначение пакета RapidMiner?

RapidMiner представляет собой платформу для анализа данных, помогающую оценить влияние данных внутри организации. Она включает в себя инструменты для извлечения данных и машинного обучения, а также процессы по загрузке и преобразованию данных (ETL), их предварительной обработке и визуализации, прогнозной аналитике и статистическому моделированию, а также оценке и внедрению решений.

2. Какой тип лицензии на использования пакета RapidMiner, каковы права и обязанности пользователя пакета?

RapidMiner предлагает два вида лицензий: Altair Unit Licensing и RapidMiner Licenses. Платные версии (профессиональная и корпоративная) являются собственностью разработчиков, в то время как бесплатная версия (с ограничением в 10 000 строк и 1 логическим процессором) предоставляется на условиях лицензии AGPL.

3. Что хранится в папках вкладки Repository?

В папках вкладки Repository находятся данные и процессы, связанные с RapidMiner. Репозиторий представляет собой организацию, которая включает в себя все ваши наборы данных (или "ExampleSets"), процессы и другие файлы, создаваемые с использованием RapidMiner Studio. Эти данные могут быть сохранены как на вашем компьютере, так и на сервере RapidMiner.

4. Какова технология импорта данных в репозиторий пользователя?

Для импорта данных в репозиторий пользователя в RapidMiner можно воспользоваться пошаговым диалогом или функцией перетаскивания. Просто перетащите необходимые файлы из вашего файлового менеджера на холст и следуйте указаниям, убедившись в правильности указания типов данных.

5. Что такое атрибуты набора данных?

Атрибуты набора данных в RapidMiner описывают типы данных, которые присваиваются соответствующим атрибутам. Определение типа данных указывает на допустимые значения, которые может принять атрибут.

6. Какие возможности есть у режима Statistics?

Оператор Statistics в RapidMiner предоставляет основную статистическую информацию, включая средние значения, стандартные отклонения, подсчет значений и другие показатели. Он также предоставляет характеристики качества для всех атрибутов вашего набора данных.

7. Какие возможности есть у режима Visualizations?

Вкладка Visualizations в разделе Results в RapidMiner Studio позволяет настраивать параметры ваших графиков — от добавления цветов до задания нескольких осей и настройки всплывающих подсказок и меток.

8. Как и когда можно реализовать предлагаемые варианты начала работы с RapidMiner, а также предлагаемые шаблоны решаемых задач?

Для успешной реализации предлагаемых вариантов начала работы с RapidMiner и использованию шаблонов задач потребуется определенное планирование. Вот возможные шаги:

- Определите ваши цели: Установите, чего вы хотите достичь по завершении проекта.

- Составьте план реализации: Этот документ будет определять, как будет выполнен проект, включая цели, объем, ресурсы (включая членов команды), необходимые для достижения успеха.

- Используйте шаблоны: RapidMiner предлагает разнообразные шаблоны для различных задач, которые можно использовать в качестве основы для вашего проекта.

9. Какие возможности существуют при работе с главным окном?

Главное окно RapidMiner состоит из разных панелей, каждая из которых предоставляет определенные функции:

- Операторы: Основные элементы любой рабочей процедуры.

- Репозиторий: Место сохранения данных, процессов и результатов.

- Панель процессов: Область для разработки процессов.

- Виды: Область для доступа к специфичным функциям.

- Порты: Механизмы для ввода и вывода данных между операторами и процессами.

10. Как можно воспользоваться системой обучения пакета RapidMiner и какие возможности предоставляет пользователю система помощи?

RapidMiner предлагает пользователям возможность обучаться для повышения своих навыков. Вот некоторые предложения:

- Самостоятельное обучение: Доступ к бесплатной платформе обучения, содержащей все необходимые ресурсы для улучшения и корректировки ваших навыков.

Вывод

В ходе выполнения лабораторной работы по дисциплине "Интеллектуальные информационные системы" на тему "Первичное знакомство со средой RapidMiner Studio" был получен ценный опыт работы с данным инструментом анализа данных.

Была установлена пробная версия RapidMiner, и осуществился запуск программы. Была изучена структура и содержимое вкладки "Repository", что способствовало лучшему пониманию организации данных в RapidMiner. В процессе изучения структур данных различных наборов из папки "Samples" были определены назначения атрибутов и полей, что является важным навыком при работе с данными. Также было произведено сравнение данных разных наборов, что позволило увидеть различия в их атрибутах и содержимом. Произошло ознакомление со статистическими параметрами изучаемых наборов данных в режиме "Statistics" и использовалась графическая интерпретация данных в режиме "Visualizations". Это помогло лучше понять данные и выявить интересные тренды или закономерности. Создание собственного тестового набора данных в произвольной системе программирования стало увлекательным заданием, что позволило применить имеющиеся навыки программирования.

В целом, данная лабораторная работа была очень познавательной. Был приобретен полезный опыт работы с RapidMiner Studio, и в будущем планируется применение этих навыков в проектах по анализу данных.

Соседние файлы в предмете Интеллектуальные информационные системы
  • #
    16.05.20251.18 Mб01.docx
  • #
    16.05.20251.63 Mб03.docx
  • #
    16.05.2025370.53 Кб05.docx
  • #
    16.05.20258.78 Кб0Лист Microsoft Excel.xlsx