
1
.docxМИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
Кафедра 41
ПРЕПОДАВАТЕЛЬ
канд. техн. наук, |
|
|
|
В. С. Блюм |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
Контрольная работа
Начальное знакомство со средой RappidMinerStudio
по курсу: Интеллектуальные информационные системы
СТУДЕНТКА ГР. № |
Z0411 |
|
21.01.25 |
|
М. В. Карелина |
|
|
номер группы |
|
подпись, дата |
|
инициалы, фамилия |
Номер студенческого билета: 2020/3477
Санкт-Петербург
2025
Цель работы: получение первоначальных навыков работы с программным комплексом RapidMiner.
Ход работы:
Устанавливаем пробную версию пакета RapidMiner.
После ознакомления с процедурой запуска пакета в работу, переходим в начальное окно запуска системы RapidMiner.
При входе в программу сразу открывается дополнительное окно нового проекта. Выбираем в вкладке Start режим Blank.
Во вкладке Repository, открыв папку Samples можно ознакомится в готовых наборах данных (Рис. 1).
Рисунок 1 - Пример доступного набора Products
Колонки в таблице (атрибуты) представляют из себя описание свойства объекта, которого мы рассматриваем. В данном случае – товара(продукта). Строки (экземпляры) – записи данных, определяющих само свойство.
Далее открываем 3 набора Titanic (Рис. 2), Titanic Unlabeled (Рис. 3) и Titanic Training (Рис. 4).
Рисунок
2 - Набор Titanic
Рисунок 3 - Набор Titanic Unlabeled
Рисунок 4 - Набор Titanic Training
Первый (Titanic) совмещает в себе всю информацию о пассажирах. В Titanic Unlabeled нет нескольких атрибутов, например, таких как имен. В Titanic Training столбец «выживший» определен как Label, для особого акцентирования именно на этом свойстве.
В режиме Statistics (Рис. 5) представлены статистические данные по каждому атрибуту. Средние, минимальные и максимальные значения. Режим Visualizations (Рис. 6) дает возможность выстроить практически любую диаграмму для наглядности данных. В рисунке 6 показана точечная диграмма с отношением пола к выживаемости.
Рисунок 5 - Режим Statistics
Рисунок 6 - Режим Visualizations
Для создания нового набора необходимо сделать новую папку (репозиторию) «New Local Repository» (Рис. 7). Далее нажимаем «Import Data» и выбираем уже готовый файл Excel c таблицей данных.
Рисунок 7 - Создание репозитория
Далее настраиваем получаемый набор данных, проверяем правильность автоматически подобранных типов данных (Рис. 8).
Рисунок 8 - Настройка полученных данных
На рисунке 9 показано что данные из Excel перенесены в RapidMiner.
Рисунок 9 - полученный набор
На
рисунке 10 показаны статистические
данные, по которым мы можем увидеть
максимальные и минимальные стоимость
маршрута и размер скидки, а также страну
с максимальным количеством путевок
Рисунок 10 - Статистический режим
На рисунке 11 показана круговая диаграмма отношения суммы к оплате и кода клиента, также был добавлен критерий Страна для наглядности. График взаимодействия скидки и количества путевок показан на рисунке 12. Также была создана гистограмма отношения количества путевок по определённым странам. (Рис. 13)
Рисунок 11 - Круглая диаграмма
Рисунок 12 - График
Рисунок 13 - Гистограмма
Контрольные вопросы
Каково назначение пакета RapidMiner?
RapidMiner представляет собой платформу для анализа данных, помогающую оценить влияние данных внутри организации. Она включает в себя инструменты для извлечения данных и машинного обучения, а также процессы по загрузке и преобразованию данных (ETL), их предварительной обработке и визуализации, прогнозной аналитике и статистическому моделированию, а также оценке и внедрению решений.
2. Какой тип лицензии на использования пакета RapidMiner, каковы права и обязанности пользователя пакета?
RapidMiner предлагает два вида лицензий: Altair Unit Licensing и RapidMiner Licenses. Платные версии (профессиональная и корпоративная) являются собственностью разработчиков, в то время как бесплатная версия (с ограничением в 10 000 строк и 1 логическим процессором) предоставляется на условиях лицензии AGPL.
3. Что хранится в папках вкладки Repository?
В папках вкладки Repository находятся данные и процессы, связанные с RapidMiner. Репозиторий представляет собой организацию, которая включает в себя все ваши наборы данных (или "ExampleSets"), процессы и другие файлы, создаваемые с использованием RapidMiner Studio. Эти данные могут быть сохранены как на вашем компьютере, так и на сервере RapidMiner.
4. Какова технология импорта данных в репозиторий пользователя?
Для импорта данных в репозиторий пользователя в RapidMiner можно воспользоваться пошаговым диалогом или функцией перетаскивания. Просто перетащите необходимые файлы из вашего файлового менеджера на холст и следуйте указаниям, убедившись в правильности указания типов данных.
5. Что такое атрибуты набора данных?
Атрибуты набора данных в RapidMiner описывают типы данных, которые присваиваются соответствующим атрибутам. Определение типа данных указывает на допустимые значения, которые может принять атрибут.
6. Какие возможности есть у режима Statistics?
Оператор Statistics в RapidMiner предоставляет основную статистическую информацию, включая средние значения, стандартные отклонения, подсчет значений и другие показатели. Он также предоставляет характеристики качества для всех атрибутов вашего набора данных.
7. Какие возможности есть у режима Visualizations?
Вкладка Visualizations в разделе Results в RapidMiner Studio позволяет настраивать параметры ваших графиков — от добавления цветов до задания нескольких осей и настройки всплывающих подсказок и меток.
8. Как и когда можно реализовать предлагаемые варианты начала работы с RapidMiner, а также предлагаемые шаблоны решаемых задач?
Для успешной реализации предлагаемых вариантов начала работы с RapidMiner и использованию шаблонов задач потребуется определенное планирование. Вот возможные шаги:
- Определите ваши цели: Установите, чего вы хотите достичь по завершении проекта.
- Составьте план реализации: Этот документ будет определять, как будет выполнен проект, включая цели, объем, ресурсы (включая членов команды), необходимые для достижения успеха.
- Используйте шаблоны: RapidMiner предлагает разнообразные шаблоны для различных задач, которые можно использовать в качестве основы для вашего проекта.
9. Какие возможности существуют при работе с главным окном?
Главное окно RapidMiner состоит из разных панелей, каждая из которых предоставляет определенные функции:
- Операторы: Основные элементы любой рабочей процедуры.
- Репозиторий: Место сохранения данных, процессов и результатов.
- Панель процессов: Область для разработки процессов.
- Виды: Область для доступа к специфичным функциям.
- Порты: Механизмы для ввода и вывода данных между операторами и процессами.
10. Как можно воспользоваться системой обучения пакета RapidMiner и какие возможности предоставляет пользователю система помощи?
RapidMiner предлагает пользователям возможность обучаться для повышения своих навыков. Вот некоторые предложения:
- Самостоятельное обучение: Доступ к бесплатной платформе обучения, содержащей все необходимые ресурсы для улучшения и корректировки ваших навыков.
Вывод
В ходе выполнения лабораторной работы по дисциплине "Интеллектуальные информационные системы" на тему "Первичное знакомство со средой RapidMiner Studio" был получен ценный опыт работы с данным инструментом анализа данных.
Была установлена пробная версия RapidMiner, и осуществился запуск программы. Была изучена структура и содержимое вкладки "Repository", что способствовало лучшему пониманию организации данных в RapidMiner. В процессе изучения структур данных различных наборов из папки "Samples" были определены назначения атрибутов и полей, что является важным навыком при работе с данными. Также было произведено сравнение данных разных наборов, что позволило увидеть различия в их атрибутах и содержимом. Произошло ознакомление со статистическими параметрами изучаемых наборов данных в режиме "Statistics" и использовалась графическая интерпретация данных в режиме "Visualizations". Это помогло лучше понять данные и выявить интересные тренды или закономерности. Создание собственного тестового набора данных в произвольной системе программирования стало увлекательным заданием, что позволило применить имеющиеся навыки программирования.
В целом, данная лабораторная работа была очень познавательной. Был приобретен полезный опыт работы с RapidMiner Studio, и в будущем планируется применение этих навыков в проектах по анализу данных.