Добавил:
t.me Инфо для ГУАП студентов от меня: https://kafaka.notion.site/99e6d9b70ca74f7baef3daea17839e5a Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Z9411_КафкаРС_ИИС_ЛР1

.docx
Скачиваний:
9
Добавлен:
10.11.2024
Размер:
953.08 Кб
Скачать

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

федеральное государственное автономное образовательное учреждение высшего образования

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»

ИНСТИТУТ НЕПРЕРЫВНОГО И ДИСТАНЦИОННОГО ОБРАЗОВАНИЯ

КАФЕДРА 82

ОЦЕНКА

ПРЕПОДАВАТЕЛЬ

доцент

В. С. Блюм

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ЛАБОРАТОРНАЯ РАБОТА №1

НАЧАЛЬНОЕ ЗНАКОМСТВО СО СРЕДОЙ RAPIDMINERSTUDIO

по дисциплине: Интеллектуальные информационные системы

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ гр. №

Z9411

Р. С. Кафка

номер группы

подпись, дата

инициалы, фамилия

Студенческий билет №

2019/3603

Шифр ИНДО

Санкт-Петербург 2024

Цель работы: получение начальных навыков работы с программным комплексом RapidMiner.

Ход работы:

Установил у себя дома пробную версию пакета RapidMiner.

Ознакомился с процедурой запуска пакета в работу, перешёл в начальное окно запуска системы RapidMiner.

При входе в программу сразу открывается дополнительное окно нового проекта. Выбрал в вкладке Start режим Blank.

Нашёл вкладку Repository, в папке Samples можно ознакомится в готовых наборах данных (рисунок 1).

Рисунок 1 - Пример доступного набора Products

Колонки в таблице (атрибуты) представляют из себя описание свойства объекта, которого мы рассматриваем. В данном случае – товара(продукта). Строки (экземпляры) – записи данных, определяющих само свойство.

Далее я открыл 3 набора Titanic (рисунок 2), Titanic Unlabeled (рисунок 3) и Titanic Training (рисунок 4).

Рисунок 2 - Набор Titanic

Рисунок 3 - Набор Titanic Unlabeled

Рисунок 4 - Набор Titanic Training

Первый (Titanic) совмещает в себе всю информацию о пассажирах. В Titanic Unlabeled нет атрибутов «выживший», имен людей. Тут является главным лишь отстальные характеристики. В Titanic Training столбец «выживший» определен как Label, для особого акцентирования именно на этом свойстве.

В режиме Statistics (рисунок 5) представлены статистические данные по каждому атрибуту. Минимальные, максимальные и средние значения. Ужатая диаграмма. Режим Visualizations (риснок 6) дает возможность выстроить практически любую возможную диаграмму для наглядности данных (тут я настроил отношение возраста и выживаемости)

Рисунок 5 - режим Statistics

Рисунок 6 - режим Visualizations

Теперь для создания своего набора я сделал свою папку(репозиторию) «1raz» (рисунок 7). Выделил её, затем нажал «Import Data», где выбрал уже готовый файл Excel c таблицей данных (рисунок 8).

Рисунок 7 - создание репозитория

Рисунок 8 - импортирование данных из Excel

Далее я настроил получаемый набор данных, проверил правильность автоматически подобранных типов данных (рисунок 9).

Рисунок 9 - настройка полученных данных

Готово. Данные из Excel перенесены в RapidMiner (рисунок 10).

Рисунок 10 - полученный набор

Статистические данные (рисунок 11). Здесь становится понятно, что к 2010г количество выпущенных игр достигло максимума и остановилось на этом уровне.

Рисунок 11 - статистический режим моего набора

В режиме визуализаций мне стало интересно посмотреть соотношение количества игр по жанрам.

Рисунок 12 - круглая диаграмма по жанру игр

Контрольные вопросы

  1. Каково назначение пакета Rapid Miner?

RapidMiner — это платформа для науки о данных, которая анализирует коллективное воздействие данных организации. Он предлагает процедуры по добыче данных и машинному обучению, включая загрузку и преобразование данных (ETL), предварительную обработку и визуализацию данных, прогностическую аналитику и статистическое моделирование, оценку и развертывание.

  1. Какой тип лицензии на использования пакета Rapid Miner, каковы права и обязанности пользователя пакета?

RapidMiner использует два типа лицензий: Altair Unit Licensing и RapidMiner Licenses. Профессиональные и корпоративные версии являются собственностью, а бесплатная версия (с ограничением до 10 000 строк и 1 логического процессора) доступна по лицензии AGPL.

  1. Что хранится в папках вкладки Repository?

В папках вкладки Repository хранятся данные и процессы RapidMiner. Репозиторий — это просто папка, которая содержит все ваши наборы данных RapidMiner (или их ещё называют “ExampleSets”), процессы и другие файловые объекты, которые вы создаете с помощью RapidMiner Studio. Эта папка может быть сохранена локально на вашем компьютере или на сервере RapidMiner.

  1. Какова технология импорта данных в репозиторий пользователя?

Импорт данных в репозиторий пользователя в RapidMiner можно выполнить, следуя пошаговому диалогу или используя функцию перетаскивания. Просто перетащите файл из вашего файлового браузера на холст и следуйте инструкциям. Убедитесь, что типы данных указаны правильно.

  1. Что такое атрибуты набора данных?

Атрибуты набора данных в RapidMiner определяют типы данных, которые RapidMiner присваивает атрибутам. Определение типа данных указывает на вид допустимых значений для атрибута.

  1. Какие возможности есть у режима Statistics?

Оператор Statistics в RapidMiner предоставляет базовую статистику, такую как среднее значение, стандартные отклонения, подсчет значений и многое другое. Он также предоставляет некоторые показатели качества для всех атрибутов вашего набора данных.

  1. Какие возможности есть у режима Visualizations?

Вкладка Visualizations в разделе Results в Studio позволяет настроить настройки вашего графика - от добавления цветов до нескольких осей и настройки всплывающих подсказок и меток.

  1. Как и когда можно реализовать предлагаемые варианты начала работы с RapidMiner, а также предлагаемые шаблоны решаемых задач?

Реализация предлагаемых вариантов начала работы с RapidMiner и предлагаемых шаблонов решаемых задач требует определенного планирования и стратегии. Вот несколько шагов, которые можно предпринять:

  • Определите свои цели: Определите, что вы надеетесь достичь, когда ваш проект будет завершен.

  • Создайте план реализации: План реализации - это документ, который определяет, как будет выполняться проект. Он описывает цели проекта, его объем и цель, а также перечисляет ресурсы (включая членов команды), необходимые для успешного проекта.

  • Используйте шаблоны: RapidMiner предлагает различные шаблоны для различных типов задач. Эти шаблоны могут быть использованы как отправная точка для вашего проекта.

  1. Какие возможности существуют при работе с главным окном?

Главное окно RapidMiner включает в себя множество панелей. Вот некоторые из возможностей:

  • Операторы: Основные элементы каждого рабочего процесса называются операторами.

  • Репозиторий: Данные, процессы и результаты хранятся в репозитории.

  • Панель процессов: Рабочая область для создания процессов.

  • Виды: Рабочая область для доступа к конкретной функциональности.

  • Порты: Механизмы ввода и вывода для операторов и процессов.

  1. Как можно воспользоваться системой обучения пакета RapidMiner и какие возможности предоставляет пользователю система помощи?

RapidMiner предлагает обучение для улучшения навыков пользователей. Вот некоторые из возможностей:

  • Самостоятельное обучение: Вы можете воспользоваться полностью бесплатной платформой обучения, разработанной для предоставления всего необходимого контента для развития и корректировки ваших навыков машинного обучения и науки о данных.

  • Сертификация: Программа сертификации RapidMiner предлагает сертификацию на основе ролей для различных областей знаний и уровней.

  • Обучающие видео: Для обучающих видео можно посетить RapidMiner Academy.

  • Руководства: При первом открытии RapidMiner Studio активируются пошаговые руководства.

  • Сообщество: Для помощи, передовых практик и сетевого взаимодействия вы можете посетить сообщество RapidMiner.

Вывод

В ходе выполнения лабораторной работы по дисциплине “Интеллектуальные информационные системы” на тему “Начальное знакомство со средой RapidMiner Studio” я получил ценный опыт работы с этим инструментом анализа данных.

Я установил пробную версию пакета RapidMiner и ознакомился с процедурой его запуска. Создание нового процесса было простым и интуитивно понятным, что облегчило мне работу.

Я изучил структуру и содержимое вкладки Repository, что помогло мне лучше понять, как организованы данные в RapidMiner. Изучение структур данных различных наборов данных из папки Samples позволило мне определить назначения атрибутов и полей, что является важным навыком при работе с данными.

Сравнение данных различных наборов помогло мне увидеть отличия в их атрибутах и содержимом. Это было полезно для понимания, как разные наборы данных могут быть использованы для разных целей.

Я ознакомился со статистическими параметрами изученных наборов данных в режиме Statistics и использовал графическую интерпретацию данных в режиме Visualizations. Это помогло мне лучше понять данные и выявить любые интересные тренды или закономерности.

Создание собственного тестового набора данных в произвольной системе программирования было интересным заданием, которое позволило мне применить свои навыки программирования. Импорт этих данных в RapidMiner был успешным, и я убедился в отсутствии ошибок импорта.

В заключение, я ознакомился со статистическими параметрами моего набора данных в режиме Statistics и выполнил графическую интерпретацию моих данных в режиме Visualizations. Это было полезно для проверки качества моих данных и для получения дополнительных сведений о них.

В целом, эта лабораторная работа была очень полезной и образовательной. Я получил ценный опыт работы с RapidMiner Studio и жду возможности применить эти навыки в будущих проектах по анализу данных.