Добавил:
t.me Инфо для ГУАП студентов от меня: https://kafaka.notion.site/99e6d9b70ca74f7baef3daea17839e5a Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Z9411_Чурилов_ИИС_ЛР1

.docx
Скачиваний:
2
Добавлен:
10.11.2024
Размер:
928.78 Кб
Скачать

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

федеральное государственное автономное образовательное учреждение высшего образования

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»

ИНСТИТУТ НЕПРЕРЫВНОГО И ДИСТАНЦИОННОГО ОБРАЗОВАНИЯ

КАФЕДРА 82

ОЦЕНКА

ПРЕПОДАВАТЕЛЬ

доцент

В. С. Блюм

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ЛАБОРАТОРНАЯ РАБОТА №1

НАЧАЛЬНОЕ ЗНАКОМСТВО СО СРЕДОЙ RAPIDMINERSTUDIO

по дисциплине: Интеллектуальные информационные системы

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ гр. №

Z9411

А. С. Чурилов

номер группы

подпись, дата

инициалы, фамилия

Студенческий билет №

2019/3684

Санкт-Петербург 2024

Цель работы: получение начальных навыков работы с программным комплексом RapidMiner.

Ход работы:

  1. Устанавливаем пробную версию пакета RapidMiner.

  2. При входе в программу в дополнительном окно нового проекта нажимаем в вкладке Start (режим Blank).

  3. В вкладке Repository, в папке Samples присутствуют готовые наборы данных (рисунок 1).

Рисунок 1 – Готовый набор данных

Колонки в таблице (атрибуты) представляют из себя описание свойства объекта, которого мы рассматриваем. В данном случае – товара(продукта). Строки (экземпляры) – записи данных, определяющих само свойство.

  1. Открываем 3 набора Titanic (рисунок 2), Titanic Unlabeled (рисунок 3) и Titanic Training (рисунок 4).

Рисунок 2 - Titanic

Рисунок 3 - Titanic Unlabeled

Рисунок 4 - Titanic Training

Первый (Titanic) совмещает в себе всю информацию о пассажирах. В Titanic Unlabeled нет атрибутов «выживший», имен людей. Тут является главным лишь отстальные характеристики. В Titanic Training столбец «выживший» определен как Label, для особого акцентирования именно на этом свойстве.

В режиме Statistics (рисунок 5) представлены статистические данные по каждому атрибуту. Минимальные, максимальные и средние значения. Ужатая диаграмма. Режим Visualizations (риснок 6) дает возможность выстроить практически любую возможную диаграмму для наглядности данных.

Рисунок 5 - Statistics

Рисунок 6 - Visualizations

  1. Для создания своего набора создаём папку. Выделяем, затем нажимаем «Import Data», где выбираем уже готовый файл Excel c таблицей данных (рисунок 7).

Рисунок 7 – импорт данных

  1. Настраиваем получаемый набор данных, проверяем правильность автоматически подобранных типов данных (рисунок 8).

Рисунок 8 - Настройка данных

  1. Данные из Excel перенесены в RapidMiner (рисунок 9).

Рисунок 9 - Итог

На рисунке 10 показаны статистические данные.

Рисунок 7 – Статистические данные

К 2010г количество выпущенных игр достигло максимума и остановилось на этом уровне.

В режиме визуализаций смотрим на соотношение количества игр по жанрам (рисунок 11).

Рисунок 8 – Диаграмма в режиме визуализации

Контрольные вопросы

Каково назначение пакета Rapid Miner?

RapidMiner — это платформа для науки о данных, которая анализирует коллективное воздействие данных организации. Он предлагает процедуры по добыче данных и машинному обучению, включая загрузку и преобразование данных (ETL), предварительную обработку и визуализацию данных, прогностическую аналитику и статистическое моделирование, оценку и развертывание.

Какой тип лицензии на использования пакета Rapid Miner, каковы права и обязанности пользователя пакета?

RapidMiner использует два типа лицензий: Altair Unit Licensing и RapidMiner Licenses. Профессиональные и корпоративные версии являются собственностью, а бесплатная версия (с ограничением до 10 000 строк и 1 логического процессора) доступна по лицензии AGPL.

Что хранится в папках вкладки Repository?

В папках вкладки Repository хранятся данные и процессы RapidMiner. Репозиторий — это просто папка, которая содержит все ваши наборы данных RapidMiner (или их ещё называют “ExampleSets”), процессы и другие файловые объекты, которые вы создаете с помощью RapidMiner Studio. Эта папка может быть сохранена локально на вашем компьютере или на сервере RapidMiner.

Какова технология импорта данных в репозиторий пользователя?

Импорт данных в репозиторий пользователя в RapidMiner можно выполнить, следуя пошаговому диалогу или используя функцию перетаскивания. Просто перетащите файл из вашего файлового браузера на холст и следуйте инструкциям. Убедитесь, что типы данных указаны правильно.

Что такое атрибуты набора данных?

Атрибуты набора данных в RapidMiner определяют типы данных, которые RapidMiner присваивает атрибутам. Определение типа данных указывает на вид допустимых значений для атрибута.

Какие возможности есть у режима Statistics?

Оператор Statistics в RapidMiner предоставляет базовую статистику, такую как среднее значение, стандартные отклонения, подсчет значений и многое другое. Он также предоставляет некоторые показатели качества для всех атрибутов вашего набора данных.

Какие возможности есть у режима Visualizations?

Вкладка Visualizations в разделе Results в Studio позволяет настроить настройки вашего графика - от добавления цветов до нескольких осей и настройки всплывающих подсказок и меток.

Как и когда можно реализовать предлагаемые варианты начала работы с RapidMiner, а также предлагаемые шаблоны решаемых задач?

Реализация предлагаемых вариантов начала работы с RapidMiner и предлагаемых шаблонов решаемых задач требует определенного планирования и стратегии. Вот несколько шагов, которые можно предпринять:

  1. Определите свои цели: определите, что вы надеетесь достичь, когда ваш проект будет завершен.

  2. Создайте план реализации: План реализации - это документ, который определяет, как будет выполняться проект. Он описывает цели проекта, его объем и цель, а также перечисляет ресурсы (включая членов команды), необходимые для успешного проекта.

  3. Используйте шаблоны: RapidMiner предлагает различные шаблоны для различных типов задач. Эти шаблоны могут быть использованы как отправная точка для вашего проекта.

Какие возможности существуют при работе с главным окном?

Главное окно RapidMiner включает в себя множество панелей. Вот некоторые из возможностей:

  1. Операторы: Основные элементы каждого рабочего процесса называются операторами.

  2. Репозиторий: Данные, процессы и результаты хранятся в репозитории.

  3. Панель процессов: Рабочая область для создания процессов.

  4. Виды: Рабочая область для доступа к конкретной функциональности.

  5. Порты: Механизмы ввода и вывода для операторов и процессов.

Как можно воспользоваться системой обучения пакета RapidMiner и какие возможности предоставляет пользователю система помощи?

RapidMiner предлагает обучение для улучшения навыков пользователей. Вот некоторые из возможностей:

  1. Самостоятельное обучение: Вы можете воспользоваться полностью бесплатной платформой обучения, разработанной для предоставления всего необходимого контента для развития и корректировки ваших навыков машинного обучения и науки о данных.

  2. Сертификация: Программа сертификации RapidMiner предлагает сертификацию на основе ролей для различных областей знаний и уровней.

  3. Обучающие видео: для обучающих видео можно посетить RapidMiner Academy.

  4. Руководства: при первом открытии RapidMiner Studio активируются пошаговые руководства.

  5. Сообщество: для помощи, передовых практик и сетевого взаимодействия вы можете посетить сообщество RapidMiner.

Вывод

В ходе выполнения лабораторной работы я получил опыт работы с инструментом анализа данных RapidMiner.

Я ознакомился со статистическими параметрами изученных наборов данных в режиме Statistics и использовал графическую интерпретацию данных в режиме Visualizations.

Создал собственный тестовый набор данных в произвольной системе программирования.