
Z9411_КафкаРС_ИИС_ЛР1
.docxМИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
ИНСТИТУТ НЕПРЕРЫВНОГО И ДИСТАНЦИОННОГО ОБРАЗОВАНИЯ
КАФЕДРА 82 |
ОЦЕНКА
ПРЕПОДАВАТЕЛЬ
доцент |
|
|
|
В. С. Блюм |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ЛАБОРАТОРНАЯ РАБОТА №1
|
НАЧАЛЬНОЕ ЗНАКОМСТВО СО СРЕДОЙ RAPIDMINERSTUDIO
|
по дисциплине: Интеллектуальные информационные системы |
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ гр. № |
Z9411 |
|
|
|
Р. С. Кафка |
|
номер группы |
|
подпись, дата |
|
инициалы, фамилия |
Студенческий билет № |
2019/3603 |
|
|
|
Шифр ИНДО |
|
Санкт-Петербург 2024
Цель работы: получение начальных навыков работы с программным комплексом RapidMiner.
Ход работы:
Установил у себя дома пробную версию пакета RapidMiner.
Ознакомился с процедурой запуска пакета в работу, перешёл в начальное окно запуска системы RapidMiner.
При входе в программу сразу открывается дополнительное окно нового проекта. Выбрал в вкладке Start режим Blank.
Нашёл вкладку Repository, в папке Samples можно ознакомится в готовых наборах данных (рисунок 1).
Рисунок
1 - Пример доступного набора Products
Колонки в таблице (атрибуты) представляют из себя описание свойства объекта, которого мы рассматриваем. В данном случае – товара(продукта). Строки (экземпляры) – записи данных, определяющих само свойство.
Далее я открыл 3 набора Titanic (рисунок 2), Titanic Unlabeled (рисунок 3) и Titanic Training (рисунок 4).
Рисунок
2 - Набор Titanic
Рисунок
3 - Набор Titanic Unlabeled
Рисунок
4 - Набор Titanic
Training
Первый (Titanic) совмещает в себе всю информацию о пассажирах. В Titanic Unlabeled нет атрибутов «выживший», имен людей. Тут является главным лишь отстальные характеристики. В Titanic Training столбец «выживший» определен как Label, для особого акцентирования именно на этом свойстве.
В режиме Statistics (рисунок 5) представлены статистические данные по каждому атрибуту. Минимальные, максимальные и средние значения. Ужатая диаграмма. Режим Visualizations (риснок 6) дает возможность выстроить практически любую возможную диаграмму для наглядности данных (тут я настроил отношение возраста и выживаемости)
Рисунок
5
- режим
Statistics
Рисунок
6
- режим
Visualizations
Теперь для создания своего набора я сделал свою папку(репозиторию) «1raz» (рисунок 7). Выделил её, затем нажал «Import Data», где выбрал уже готовый файл Excel c таблицей данных (рисунок 8).
Рисунок
7 - создание репозитория
Рисунок
8 - импортирование данных из Excel
Далее я настроил получаемый набор данных, проверил правильность автоматически подобранных типов данных (рисунок 9).
Рисунок
9 - настройка полученных данных
Готово. Данные из Excel перенесены в RapidMiner (рисунок 10).
Рисунок
10 - полученный набор
Статистические данные (рисунок 11). Здесь становится понятно, что к 2010г количество выпущенных игр достигло максимума и остановилось на этом уровне.
Рисунок
11 - статистический режим моего набора
В режиме визуализаций мне стало интересно посмотреть соотношение количества игр по жанрам.
Рисунок
12 - круглая диаграмма по жанру игр
Контрольные вопросы
Каково назначение пакета Rapid Miner?
RapidMiner — это платформа для науки о данных, которая анализирует коллективное воздействие данных организации. Он предлагает процедуры по добыче данных и машинному обучению, включая загрузку и преобразование данных (ETL), предварительную обработку и визуализацию данных, прогностическую аналитику и статистическое моделирование, оценку и развертывание.
Какой тип лицензии на использования пакета Rapid Miner, каковы права и обязанности пользователя пакета?
RapidMiner использует два типа лицензий: Altair Unit Licensing и RapidMiner Licenses. Профессиональные и корпоративные версии являются собственностью, а бесплатная версия (с ограничением до 10 000 строк и 1 логического процессора) доступна по лицензии AGPL.
Что хранится в папках вкладки Repository?
В папках вкладки Repository хранятся данные и процессы RapidMiner. Репозиторий — это просто папка, которая содержит все ваши наборы данных RapidMiner (или их ещё называют “ExampleSets”), процессы и другие файловые объекты, которые вы создаете с помощью RapidMiner Studio. Эта папка может быть сохранена локально на вашем компьютере или на сервере RapidMiner.
Какова технология импорта данных в репозиторий пользователя?
Импорт данных в репозиторий пользователя в RapidMiner можно выполнить, следуя пошаговому диалогу или используя функцию перетаскивания. Просто перетащите файл из вашего файлового браузера на холст и следуйте инструкциям. Убедитесь, что типы данных указаны правильно.
Что такое атрибуты набора данных?
Атрибуты набора данных в RapidMiner определяют типы данных, которые RapidMiner присваивает атрибутам. Определение типа данных указывает на вид допустимых значений для атрибута.
Какие возможности есть у режима Statistics?
Оператор Statistics в RapidMiner предоставляет базовую статистику, такую как среднее значение, стандартные отклонения, подсчет значений и многое другое. Он также предоставляет некоторые показатели качества для всех атрибутов вашего набора данных.
Какие возможности есть у режима Visualizations?
Вкладка Visualizations в разделе Results в Studio позволяет настроить настройки вашего графика - от добавления цветов до нескольких осей и настройки всплывающих подсказок и меток.
Как и когда можно реализовать предлагаемые варианты начала работы с RapidMiner, а также предлагаемые шаблоны решаемых задач?
Реализация предлагаемых вариантов начала работы с RapidMiner и предлагаемых шаблонов решаемых задач требует определенного планирования и стратегии. Вот несколько шагов, которые можно предпринять:
Определите свои цели: Определите, что вы надеетесь достичь, когда ваш проект будет завершен.
Создайте план реализации: План реализации - это документ, который определяет, как будет выполняться проект. Он описывает цели проекта, его объем и цель, а также перечисляет ресурсы (включая членов команды), необходимые для успешного проекта.
Используйте шаблоны: RapidMiner предлагает различные шаблоны для различных типов задач. Эти шаблоны могут быть использованы как отправная точка для вашего проекта.
Какие возможности существуют при работе с главным окном?
Главное окно RapidMiner включает в себя множество панелей. Вот некоторые из возможностей:
Операторы: Основные элементы каждого рабочего процесса называются операторами.
Репозиторий: Данные, процессы и результаты хранятся в репозитории.
Панель процессов: Рабочая область для создания процессов.
Виды: Рабочая область для доступа к конкретной функциональности.
Порты: Механизмы ввода и вывода для операторов и процессов.
Как можно воспользоваться системой обучения пакета RapidMiner и какие возможности предоставляет пользователю система помощи?
RapidMiner предлагает обучение для улучшения навыков пользователей. Вот некоторые из возможностей:
Самостоятельное обучение: Вы можете воспользоваться полностью бесплатной платформой обучения, разработанной для предоставления всего необходимого контента для развития и корректировки ваших навыков машинного обучения и науки о данных.
Сертификация: Программа сертификации RapidMiner предлагает сертификацию на основе ролей для различных областей знаний и уровней.
Обучающие видео: Для обучающих видео можно посетить RapidMiner Academy.
Руководства: При первом открытии RapidMiner Studio активируются пошаговые руководства.
Сообщество: Для помощи, передовых практик и сетевого взаимодействия вы можете посетить сообщество RapidMiner.
Вывод
В ходе выполнения лабораторной работы по дисциплине “Интеллектуальные информационные системы” на тему “Начальное знакомство со средой RapidMiner Studio” я получил ценный опыт работы с этим инструментом анализа данных.
Я установил пробную версию пакета RapidMiner и ознакомился с процедурой его запуска. Создание нового процесса было простым и интуитивно понятным, что облегчило мне работу.
Я изучил структуру и содержимое вкладки Repository, что помогло мне лучше понять, как организованы данные в RapidMiner. Изучение структур данных различных наборов данных из папки Samples позволило мне определить назначения атрибутов и полей, что является важным навыком при работе с данными.
Сравнение данных различных наборов помогло мне увидеть отличия в их атрибутах и содержимом. Это было полезно для понимания, как разные наборы данных могут быть использованы для разных целей.
Я ознакомился со статистическими параметрами изученных наборов данных в режиме Statistics и использовал графическую интерпретацию данных в режиме Visualizations. Это помогло мне лучше понять данные и выявить любые интересные тренды или закономерности.
Создание собственного тестового набора данных в произвольной системе программирования было интересным заданием, которое позволило мне применить свои навыки программирования. Импорт этих данных в RapidMiner был успешным, и я убедился в отсутствии ошибок импорта.
В заключение, я ознакомился со статистическими параметрами моего набора данных в режиме Statistics и выполнил графическую интерпретацию моих данных в режиме Visualizations. Это было полезно для проверки качества моих данных и для получения дополнительных сведений о них.
В целом, эта лабораторная работа была очень полезной и образовательной. Я получил ценный опыт работы с RapidMiner Studio и жду возможности применить эти навыки в будущих проектах по анализу данных.