
ИИС_1
.docxГУАП
КАФЕДРА № 82
ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ
ПРЕПОДАВАТЕЛЬ
доцент, канд. техн. наук |
|
|
|
А.Д. Державина |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №1 |
НАЧАЛЬНОЕ ЗНАКОМСТВО СО СРЕДОЙ RAPIDMINERSTUDIO |
по курсу: ИНТЕЛЛЕКТУАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ |
|
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ гр. № |
4116 |
|
|
|
|
|
|
|
подпись, дата |
|
инициалы, фамилия |
Санкт-Петербург 2024
Цель работы: получение начальных навыков работы с программным комплексом RapidMinerStudio.
Ход работы:
Установлен программный комплекс Altair AI Studio с RapidMiner (Рисунок 1).
Рисунок 1- Начальное окно запуска системы RapidMinerStudio
Выбран режим Start/Blank, запущен новый процесс (Рисунок 2).
Рисунок 2- Окно выбора процесса
RapidMiner предлагает наборы данных для обработки (Рисунок 3), среди которых есть наборы данных Titanic, Titanic Training и Titanic Unlabeled (Рисунок 4-6). Набор Titanic содержит 12 атрибутов (класс пассажира, имя, пол, возраст, братья и сестры или супруги на борту, дети или родители на борту, номер билета, стоимость билета, номер каюты, порт прибытия, номер шлюпки, информацию выжил ли пассажир) и 1309 строк, в наборе Titanic Training 7 атрибутов (информация выжил ли пассажир, возраст, класс, пол, братья и сестры или супруги на борту, дети или родители на борту, стоимость билета) и 916 строк, выделен атрибут Survived, который показывает выжил ли пассажир. Titanic Unlabeled содержит 6 атрибутов и 392 строки.
Рисунок 3 – Вкладка Repository
Рисунок 4 – Набор Titanic
Рисунок 5 – Набор Titanic Training
Рисунок 6 – Набор Titanic Unlabeled
Вкладка Statistics показывает тип данных, количество пустых ячеек, число значений в атрибутах (Рисунок 7).
Рисунок 7 – Titanic в режиме Statistics
Visualizations позволяет представить данные в виде графиков. Создана круговая диаграмма, которая показывает информацию о количестве выживших пассажирах в разных классах (Рисунок 8).
Рисунок 8– Круговая диаграмма
На основании полученной визуализации можно сказать, что большинство выживших пассажиров было из 3-го класса.
Импортирован датасет, который содержит информацию о предпочтениях в еде у людей из разных стран (Рисунок 9-11). В наборе содержатся следующие атрибуты: дата опроса, id участника опроса, пол, национальность, возраст, предпочтения в еде, напитках и дессерте.
Рисунок 9– Импорт данных
Рисунок 10 – Выбор места хранения
Рисунок 11 – Результат импорта данных
С помощью Statistics просмотрена подробная информация о наборе. Самый минимальный возраст опрошенного – 8 лет, максимальный – 80 лет. Есть 4 строки с пропущенными значениями в поле, которое содержит информацию о поле (Рисунок 12).
Рисунок 12 – Режим Statistics
Через Visualization была построен график, который показывает распределение предпочтений по десертам в различных возрастных группах (Рисунок 13).
Рисунок 13 – График
Возрастные группы 20-30 лет проявляют больший интерес к десертам. Ответы с отказом от десертов остаются на низком уровне, но слегка увеличиваются с возрастом 31-35 лет.
Построена гистограмма, показывающая предпочтения между свежими соками и газированными напитками в зависимости от пола (Рисунок 14).
Рисунок 14 – Гистограмма
Как мужчины, так и женщины предпочитают свежие соки значительно больше, чем газированные напитки, при этом женщины показывают наибольшее предпочтение свежим сокам.
Вывод: в ходе выполнения лабораторной работы получены начальные навыки работы с RapidMiner, исследован набор данных Titanic с помощью режимов Statistics и Visualization. Также импортирован набор данных о предпочтениях в еде людей, живущих в разных странах.
Ответы на контрольные вопросы:
Каково назначение пакета RapidMiner?
RapidMiner - это программная многопользовательская платформа, которая представляет собой интегрированную среду для обработки данных в больших информационных массивах, машинного обучения, текстовой аналитики и построения прогностических моделей.
Какой тип лицензии на использования пакета RapidMiner, каковы права и обязанности пользователя пакета?
Образовательная лицензия.
Условия:
Неограниченное количество строк данных
Неограниченное количество логических процессоров
Срок действия до 12 сентября 2025 года.
Что хранится в папках вкладки Repository?
Наборы данных, предоставляемые по умолчанию с программой, так же здесь хранятся данные, которые загружает пользователь, подключение к БД.
Какова технология импорта данных в репозиторий пользователя?
На главной странице нажать кнопку File/ImportData. Откроется новое окно, в котором нужно выбрать откуда импортируются данные MyComputer/DB. Далее выбрать файл и папку, куда он будет импортирован.
Что такое атрибуты набора данных?
Атрибуты – колонки (признаки), которые характеризуют рассматриваемый объект (сущность) в наборе данных.
Какие возможности есть у режима Statistics?
Режим Statistics дает информацию о типах данных полей, минимальных, максимальных, средних значениях числовых атрибутов, самых часто-встречающихся и редко-встречающихся значениях.
Какие возможности есть у режима Visualizations?
Visualizations позволяет представить набор данных в виде графиков, диаграмм и других представлениях, которые помогают проанализировать изменение одних показателей от других.
Как и когда можно реализовать предлагаемые варианты начала работы с RapidMiner, а также предлагаемые шаблоны решаемых задач?
Blank Process относится к созданию нового пустого процесса.
Turbo Preb— это инструмент в RapidMiner, который автоматизирует процессы предобработки данных. Он помогает в очистке, преобразовании и подготовке данных для дальнейшего анализа или построения моделей.
Auto Model — это функция RapidMiner, которая позволяет автоматически создавать модели машинного обучения на основе данных.
Есть различные шаблоны прогнозирования, обнаружения выбросов, кластеризации, анализа данных и моделирования рисков.
Какие возможности существуют при работе с главным окном?
Можно начать работу с новым процессом и запустить один из шаблонов Также можно открыть существующий процесс и обратиться к системе пошагового обучения.
Как можно воспользоваться системой обучения пакета RapidMiner и какие возможности предоставляет пользователю система помощи?
Система предоставляет обширную документацию и учебные видеоуроки и курсы, которые охватывают различные аспекты работы с программой. На форуме RapidMiner можно задать вопросы, обсудить проблемы и получить советы от других пользователей и разработчиков.