Скачиваний:
44
Добавлен:
18.12.2019
Размер:
926.47 Кб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное автономное образовательное учреждение высшего образования

«САНКТ-ПЕТЕРБУРГСКИЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»

КАФЕДРА № 82

ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

доцент

В.С. Блюм

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №1

Начальное знакомство со средой RapidMinerStudio и подготовка исходных данных

по курсу: Интеллектуальные информационные системы

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ ГР. №

4616

А.В.Павлов

подпись, дата

инициалы, фамилия

Санкт-Петербург 2019

Цель работы: получение начальных навыков работы с программным комплексом RapidMinerStudio

Ход работы:

После запуска программы видим окно по умолчанию, нажимаем на Blank

Рисунок 1 – Окно при запуске

Знакомимся с данными предоставляемыми по умолчанию в папке Samples.

Рисунок 2 – Окно репозитория

Смотрим отличия различных данных. Видим что данные отличаются количеством данных и размером атребутов.

Для Titanic мы имеем 12 атрибутов - класс пассажира, имя, пол, возраст, братья и сестры или супруги на борту, дети/родители на борту, номер билета, пассажирский тариф, номер шлюпки, выживший.

Для Titanic_Training мы имеем 7 атрибутов - Выживший, возраст, класс пассажира, пол, братья и сестры или супруги на борту, дети/родители на борту, пассажирский тариф

Для Titanic_Unlabeled мы имеем 6 атрибутов - Возраст, класс, пол, братья и сестры или супруги на борту, дети/родители на борту, пассажирский тариф.

Рисунок 3 – Пример данных в различных таблицах

Открываем таблицу и смотрим отображение данных через вкладку Statistics

Рисунок 4 – Вкладка Statistics

Например, мы можем посмотреть, количество братьев или сестёр у пассажиров, как видно чаще всего они не имеют их, или имеют в количестве 1 штуки

Рисунок 5 – Визуализация данных

Или мы можем узнать соотношения полов. По круговой диаграмме видно, что мужчин было больше женщин примерно на 25%

Рисунок 6 – Круговая диаграмма

Далее импортируем наши данные. Для примера возьмем таблицу цен на недвижимость в Москве. Где у нас 10 атрибутов:

- Общая площадь квартиры, кв.м.

- Жилая площадь квартиры, кв.м.

- Площадь кухни, кв.м.

- Расстояние от центра в км.

- Расстояние до метро в минутах

- Расстояние до метро пешком (1 – пешкм от метро, 0 – на транспорте)

- Тип дома (1 – кирпичный, монолит ж/б, 0 – другой

- Этаж (1 – этаж кроме первого и последнего, 0 – иначе.)

Рисунок 7 – Импортируемы данные

Далее мы можем визуализировать наши загруженные данные и посмотреть например, гистограмму цены

На ней мы видим что большинство цен находиться в диапазоне $80-100 тыс., далее идут цены от 100 до 110 и так далее

Рисунок 9 – Гистограмма

Второй график это круговая диаграмма, мы можем посмотреть какую долю в наших данных занимают дома с кирпичным типом. Видно, что кирпич занимает 75% от всех домов.

Рисунок 10 – Круговая диаграмма

На рисунке 11 мы можем посмотреть распределение площади квартир, видно что большинство квартир имеют площадь от 44 до 90 м.

Рисунок 11 - График

Выводы:

В ходе лабораторной работы мы ознакомились со встроенными данными в RapidMiner, ознакомились со вкладкой статистика, а так же визуализировали данные с помощью встроенных инструментов. Далее мы повторили это уже для наших, импортированных данных, а именно для цен на квартиры для Москвы, построили различные графики и описали их.

Контрольные вопросы

1) RapidMinerStudio представляет собой мощную многопользовательскую платформу, которая служит для создания, передачи и обслуживания наукоемких данных. Платформа открыта и расширяема для поддержки всех потребностей научных данных, ускоряет создание полных аналитических рабочих процессов от подготовки данных для моделирования до развертывания бизнеса в единой среде, значительно повышая эффективность и сокращая время, необходимое для создания проектов в области данных.

2) Профессиональная лицензия платная. В стандартной лицензии AGPL (свободная лицензия) доступно 10,000 колонок и ограничение в один логический процесс.

3) Во вкладке Repository храниться таблицы и другие учебные примеры предоставляемые по умолчанию с программой, так же здесь храниться и данные которые загружает пользователь, подключение к БД

4) Атрибуты наборы данных это структура полей(т.е название полей столбцов)

5) Поле Name есть ничто иное как идентификатор колонки (атрибута),

6) Type – тип поля, т.е целочисленный, дата, номинальный и так далее

7) Типы данных в RapidMiner - Целые числа, Дробные числа, Перечисляемый, Двухвариантный, дата, текстовый

8) Range - диапазон изменения или конкретные значения переменных

9) Missings - возможные потерянные значения переменных

10) Role - при необходимости, может содержать некое значение(regular, special, label, id...).

Соседние файлы в предмете Интеллектуальные информационные системы