Лаба_1_2
.docxМИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
КАФЕДРА № 82
ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ
ПРЕПОДАВАТЕЛЬ
доцент |
|
|
|
В.С. Блюм |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №1 |
Начальное знакомство со средой RapidMinerStudio и подготовка исходных данных
|
по курсу: Интеллектуальные информационные системы |
|
|
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ ГР. № |
4616 |
|
|
|
А.В.Павлов |
|
|
|
подпись, дата |
|
инициалы, фамилия |
Санкт-Петербург 2019
Цель работы: получение начальных навыков работы с программным комплексом RapidMinerStudio
Ход работы:
После запуска программы видим окно по умолчанию, нажимаем на Blank
Рисунок 1 – Окно при запуске
Знакомимся с данными предоставляемыми по умолчанию в папке Samples.
Рисунок 2 – Окно репозитория
Смотрим отличия различных данных. Видим что данные отличаются количеством данных и размером атребутов.
Для Titanic мы имеем 12 атрибутов - класс пассажира, имя, пол, возраст, братья и сестры или супруги на борту, дети/родители на борту, номер билета, пассажирский тариф, номер шлюпки, выживший.
Для Titanic_Training мы имеем 7 атрибутов - Выживший, возраст, класс пассажира, пол, братья и сестры или супруги на борту, дети/родители на борту, пассажирский тариф
Для Titanic_Unlabeled мы имеем 6 атрибутов - Возраст, класс, пол, братья и сестры или супруги на борту, дети/родители на борту, пассажирский тариф.
Рисунок 3 – Пример данных в различных таблицах
Открываем таблицу и смотрим отображение данных через вкладку Statistics
Рисунок 4 – Вкладка Statistics
Например, мы можем посмотреть, количество братьев или сестёр у пассажиров, как видно чаще всего они не имеют их, или имеют в количестве 1 штуки
Рисунок 5 – Визуализация данных
Или мы можем узнать соотношения полов. По круговой диаграмме видно, что мужчин было больше женщин примерно на 25%
Рисунок 6 – Круговая диаграмма
Далее импортируем наши данные. Для примера возьмем таблицу цен на недвижимость в Москве. Где у нас 10 атрибутов:
- Общая площадь квартиры, кв.м.
- Жилая площадь квартиры, кв.м.
- Площадь кухни, кв.м.
- Расстояние от центра в км.
- Расстояние до метро в минутах
- Расстояние до метро пешком (1 – пешкм от метро, 0 – на транспорте)
- Тип дома (1 – кирпичный, монолит ж/б, 0 – другой
- Этаж (1 – этаж кроме первого и последнего, 0 – иначе.)
Рисунок 7 – Импортируемы данные
Далее мы можем визуализировать наши загруженные данные и посмотреть например, гистограмму цены
На ней мы видим что большинство цен находиться в диапазоне $80-100 тыс., далее идут цены от 100 до 110 и так далее
Рисунок 9 – Гистограмма
Второй график это круговая диаграмма, мы можем посмотреть какую долю в наших данных занимают дома с кирпичным типом. Видно, что кирпич занимает 75% от всех домов.
Рисунок 10 – Круговая диаграмма
На рисунке 11 мы можем посмотреть распределение площади квартир, видно что большинство квартир имеют площадь от 44 до 90 м.
Рисунок 11 - График
Выводы:
В ходе лабораторной работы мы ознакомились со встроенными данными в RapidMiner, ознакомились со вкладкой статистика, а так же визуализировали данные с помощью встроенных инструментов. Далее мы повторили это уже для наших, импортированных данных, а именно для цен на квартиры для Москвы, построили различные графики и описали их.
Контрольные вопросы
1) RapidMinerStudio представляет собой мощную многопользовательскую платформу, которая служит для создания, передачи и обслуживания наукоемких данных. Платформа открыта и расширяема для поддержки всех потребностей научных данных, ускоряет создание полных аналитических рабочих процессов от подготовки данных для моделирования до развертывания бизнеса в единой среде, значительно повышая эффективность и сокращая время, необходимое для создания проектов в области данных.
2) Профессиональная лицензия платная. В стандартной лицензии AGPL (свободная лицензия) доступно 10,000 колонок и ограничение в один логический процесс.
3) Во вкладке Repository храниться таблицы и другие учебные примеры предоставляемые по умолчанию с программой, так же здесь храниться и данные которые загружает пользователь, подключение к БД
4) Атрибуты наборы данных это структура полей(т.е название полей столбцов)
5) Поле Name есть ничто иное как идентификатор колонки (атрибута),
6) Type – тип поля, т.е целочисленный, дата, номинальный и так далее
7) Типы данных в RapidMiner - Целые числа, Дробные числа, Перечисляемый, Двухвариантный, дата, текстовый
8) Range - диапазон изменения или конкретные значения переменных
9) Missings - возможные потерянные значения переменных
10) Role - при необходимости, может содержать некое значение(regular, special, label, id...).