
Z9411_Чурилов_ИИС_ЛР1
.docxМИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
ИНСТИТУТ НЕПРЕРЫВНОГО И ДИСТАНЦИОННОГО ОБРАЗОВАНИЯ
КАФЕДРА 82 |
ОЦЕНКА
ПРЕПОДАВАТЕЛЬ
доцент |
|
|
|
В. С. Блюм |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ЛАБОРАТОРНАЯ РАБОТА №1
|
НАЧАЛЬНОЕ ЗНАКОМСТВО СО СРЕДОЙ RAPIDMINERSTUDIO
|
по дисциплине: Интеллектуальные информационные системы |
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ гр. № |
Z9411 |
|
|
|
А. С. Чурилов |
|
номер группы |
|
подпись, дата |
|
инициалы, фамилия |
Студенческий билет № |
2019/3684 |
|
|
|
Санкт-Петербург 2024
Цель работы: получение начальных навыков работы с программным комплексом RapidMiner.
Ход работы:
Устанавливаем пробную версию пакета RapidMiner.
При входе в программу в дополнительном окно нового проекта нажимаем в вкладке Start (режим Blank).
В вкладке Repository, в папке Samples присутствуют готовые наборы данных (рисунок 1).
Рисунок 1 – Готовый набор данных
Колонки в таблице (атрибуты) представляют из себя описание свойства объекта, которого мы рассматриваем. В данном случае – товара(продукта). Строки (экземпляры) – записи данных, определяющих само свойство.
Открываем 3 набора Titanic (рисунок 2), Titanic Unlabeled (рисунок 3) и Titanic Training (рисунок 4).
Рисунок
2 - Titanic
Рисунок
3 - Titanic Unlabeled
Рисунок
4 - Titanic
Training
Первый (Titanic) совмещает в себе всю информацию о пассажирах. В Titanic Unlabeled нет атрибутов «выживший», имен людей. Тут является главным лишь отстальные характеристики. В Titanic Training столбец «выживший» определен как Label, для особого акцентирования именно на этом свойстве.
В режиме Statistics (рисунок 5) представлены статистические данные по каждому атрибуту. Минимальные, максимальные и средние значения. Ужатая диаграмма. Режим Visualizations (риснок 6) дает возможность выстроить практически любую возможную диаграмму для наглядности данных.
Рисунок
5
- Statistics
Рисунок
6
- Visualizations
Для создания своего набора создаём папку. Выделяем, затем нажимаем «Import Data», где выбираем уже готовый файл Excel c таблицей данных (рисунок 7).
Рисунок
7 – импорт данных
Настраиваем получаемый набор данных, проверяем правильность автоматически подобранных типов данных (рисунок 8).
Рисунок
8 - Настройка данных
Данные из Excel перенесены в RapidMiner (рисунок 9).
Рисунок
9 - Итог
На рисунке 10 показаны статистические данные.
Рисунок
7 – Статистические данные
К 2010г количество выпущенных игр достигло максимума и остановилось на этом уровне.
В режиме визуализаций смотрим на соотношение количества игр по жанрам (рисунок 11).
Рисунок
8 – Диаграмма в режиме визуализации
Контрольные вопросы
Каково назначение пакета Rapid Miner?
RapidMiner — это платформа для науки о данных, которая анализирует коллективное воздействие данных организации. Он предлагает процедуры по добыче данных и машинному обучению, включая загрузку и преобразование данных (ETL), предварительную обработку и визуализацию данных, прогностическую аналитику и статистическое моделирование, оценку и развертывание.
Какой тип лицензии на использования пакета Rapid Miner, каковы права и обязанности пользователя пакета?
RapidMiner использует два типа лицензий: Altair Unit Licensing и RapidMiner Licenses. Профессиональные и корпоративные версии являются собственностью, а бесплатная версия (с ограничением до 10 000 строк и 1 логического процессора) доступна по лицензии AGPL.
Что хранится в папках вкладки Repository?
В папках вкладки Repository хранятся данные и процессы RapidMiner. Репозиторий — это просто папка, которая содержит все ваши наборы данных RapidMiner (или их ещё называют “ExampleSets”), процессы и другие файловые объекты, которые вы создаете с помощью RapidMiner Studio. Эта папка может быть сохранена локально на вашем компьютере или на сервере RapidMiner.
Какова технология импорта данных в репозиторий пользователя?
Импорт данных в репозиторий пользователя в RapidMiner можно выполнить, следуя пошаговому диалогу или используя функцию перетаскивания. Просто перетащите файл из вашего файлового браузера на холст и следуйте инструкциям. Убедитесь, что типы данных указаны правильно.
Что такое атрибуты набора данных?
Атрибуты набора данных в RapidMiner определяют типы данных, которые RapidMiner присваивает атрибутам. Определение типа данных указывает на вид допустимых значений для атрибута.
Какие возможности есть у режима Statistics?
Оператор Statistics в RapidMiner предоставляет базовую статистику, такую как среднее значение, стандартные отклонения, подсчет значений и многое другое. Он также предоставляет некоторые показатели качества для всех атрибутов вашего набора данных.
Какие возможности есть у режима Visualizations?
Вкладка Visualizations в разделе Results в Studio позволяет настроить настройки вашего графика - от добавления цветов до нескольких осей и настройки всплывающих подсказок и меток.
Как и когда можно реализовать предлагаемые варианты начала работы с RapidMiner, а также предлагаемые шаблоны решаемых задач?
Реализация предлагаемых вариантов начала работы с RapidMiner и предлагаемых шаблонов решаемых задач требует определенного планирования и стратегии. Вот несколько шагов, которые можно предпринять:
Определите свои цели: определите, что вы надеетесь достичь, когда ваш проект будет завершен.
Создайте план реализации: План реализации - это документ, который определяет, как будет выполняться проект. Он описывает цели проекта, его объем и цель, а также перечисляет ресурсы (включая членов команды), необходимые для успешного проекта.
Используйте шаблоны: RapidMiner предлагает различные шаблоны для различных типов задач. Эти шаблоны могут быть использованы как отправная точка для вашего проекта.
Какие возможности существуют при работе с главным окном?
Главное окно RapidMiner включает в себя множество панелей. Вот некоторые из возможностей:
Операторы: Основные элементы каждого рабочего процесса называются операторами.
Репозиторий: Данные, процессы и результаты хранятся в репозитории.
Панель процессов: Рабочая область для создания процессов.
Виды: Рабочая область для доступа к конкретной функциональности.
Порты: Механизмы ввода и вывода для операторов и процессов.
Как можно воспользоваться системой обучения пакета RapidMiner и какие возможности предоставляет пользователю система помощи?
RapidMiner предлагает обучение для улучшения навыков пользователей. Вот некоторые из возможностей:
Самостоятельное обучение: Вы можете воспользоваться полностью бесплатной платформой обучения, разработанной для предоставления всего необходимого контента для развития и корректировки ваших навыков машинного обучения и науки о данных.
Сертификация: Программа сертификации RapidMiner предлагает сертификацию на основе ролей для различных областей знаний и уровней.
Обучающие видео: для обучающих видео можно посетить RapidMiner Academy.
Руководства: при первом открытии RapidMiner Studio активируются пошаговые руководства.
Сообщество: для помощи, передовых практик и сетевого взаимодействия вы можете посетить сообщество RapidMiner.
Вывод
В ходе выполнения лабораторной работы я получил опыт работы с инструментом анализа данных RapidMiner.
Я ознакомился со статистическими параметрами изученных наборов данных в режиме Statistics и использовал графическую интерпретацию данных в режиме Visualizations.
Создал собственный тестовый набор данных в произвольной системе программирования.