Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ЛР1_ИАД_Ибрагимова_Шакиров_МО417

.docx
Скачиваний:
34
Добавлен:
14.09.2022
Размер:
12.99 Mб
Скачать

Министерство науки и высшего образования Российской Федерации

Федеральное государственное бюджетное образовательное учреждение

высшего образования

«Уфимский государственный авиационный технический университет»

Кафедра вычислительной математики и кибернетики

Лабораторная работа №1

по дисциплине: «Интеллектуальный анализ данных»

Система интеллектуального анализа данных

«RapidMiner»

Выполнили:

студенты группы МО-417

Шакиров А.Р.

Ибрагимова К.Б.

Проверила:

Харисова Э. А.

Уфа 2021

Цель

Приобрести навыки подготовки набора данных для его интеллектуального анализа с помощью системы RapidMiner.

Задачи:

1. Выполнить обучающее задание в соответствии с настоящим руководством по выполнению лабораторной работы;

2. Выполнить задание для самостоятельной работы в соответствии с настоящим руководством по выполнению лабораторной работы;

З. Оформить отчет о выполнении лабораторной работы в соответствии с требованиями к его оформлению.

Обучающее задание

Создадим новый проект в программе RapidMiner версии 9.10. Обработка данных RapidMiner производится при использовании операторов, которые поочерёдно применяются к источнику данных.

Импортируем данные с локального источника данных для аналитической обработки из файла Lab01DataSet.csv выбрав кнопку Import Data во вкладке Repository (Рисунок 1-2).

Рисунок 1 – Кнопка Import Data во вкладке Repository

Рисунок 2 – Выбор источника данных

В окне с параметрами распознания необходимо выставить все параметры в соответствии с Рисунком 3. После возможно форматирование колонок. Для изменения имени, типа или удаления колонки необходимо нажать на шестеренку в заголовке колонки. (Рисунок 3-4).

Рисунок 3 – Параметры распознавания файла

Рисунок 4 – Форматирование колонок

При правильном выполнении настроек импортирования файл появится во вкладке Repository, после чего его можно перетащить на вкладку Process, чтобы пРисуноктупить к анализу. Соединим порт «out» исходных данных и «res» главного процесса, затем нажмем на RunProcess (Рисунок 5).

Рисунок 5 – Перенос набора данных на поле Main Process

После окончания расчетов программа переключится на рабочую область «Results» и по умолчанию будет открыта вкладка Data, которая содержит полученные данные (Рисунок 6)

Рисунок 6 – Вкладка Data рабочей области Results

На вкладке Statistics мы увидим базовые статистические данные по каждому атрибуту, а также количество отсутствующих (или нераспознанных) атрибутов (Рисунок 7).

Рисунок 7 – Вкладка статистика

Произведем замену отсутствующих значений атрибута OnIine_Gaming на значение N, соответствующее моде данного атрибута используя оператор Replace Missing. Необходимо его настроить как на Рисунке 8.

Рисунок 8 – Настройка параметров оператора Replace Missing

Результат выполнения процесса (Рисунок 9). Все нераспознанные наблюдения атрибута Online_Gaming заменились на N.

Рисунок 9 – Результаты после замены отсутствующих значений

Произведем удаление наблюдений с отсутствующими значениями атрибута OnIine_Shopping. Для этого используем оператор Filter Examples (Рисунок 10).

Рисунок 10 – Добавление оператора Filter Examples

Настроим параметры оператора Filter Examples (Рисунок 11).

Рисунок 11 – Настройка параметров оператора Filter Examples

Результат выполнения процесса (Рисунок 12). Все наблюдения с отсутствующим атрибутом Online_Shopping были удалены.

Рисунок 12 – Результаты процесса после удаления части наблюдений

Произведем удаление 50% наблюдений из результирующего набора данных используя оператор Sample (Рисунок 13).

Рисунок 13 – Настройка параметров оператора Sample

Результат выполнения процесса (Рисунок 14). Число наблюдений сократилось в два раза.

Рисунок 14 – Результаты процесса после удаления части наблюдений

Произведем замену значений атрибута Twitter, не соответствующие типу данного атрибута с помощью оператора Replace (Рисунок 15).

Рисунок 15 – Настройка параметров оператора Replace

Результат выполнения процесса (Рисунок 16).

Рисунок 16 – Результаты процесса после замены значений атрибута Twitter

Произведем удаление части атрибутов набора данных. Для этого используем оператор Select Attributes. Проведем настройку оператора на Рисунокунках 17-18.

Рисунок 17 – Настройка параметров оператора Select Attributes

Рисунок 18 – Настройка параметров оператора Select Attributes

Результат выполнения процесса (Рисунок 19).

Рисунок 19 – Результаты процесса после удаления части атрибутов

Задание для самостоятельной работы

  1. Для проведения анализа был выбран набор данных с сайта Kaggle.com , предоставляющий статистику о более чем 9000 укусах животных, которые произошли вблизи Луисвилла, штат Кентукки, с 1985 по 2017 год.

Название

Описание

Тип атрибута

Диапазон значений

1

bite_date

Дата, когда произошел укус

Полиномиальный

[1985-1700]

2

SpeciesIDDesc

Вид животного, которое укусило

Полиномиальный

[DOG, CAT, BAT RACCOON, HORSE, FERRET, RABBIT, SKUNK]

3

BreedIDDesc

Порода (если известна)

Полиномиальный

[PIT BULL, GERM SHEPHERD, LABRADOR RETRIV, BOXER, CHICHAUHUA]

4

GenderIDDesc

Пол (животного)

Биномиальный

[MALE, FEMALE]

5

color

окрас животного

Полиномиальный

[BLACK, BROWN, WHITE, BLK WHT, TAN]

6

vaccination_yrs

сколько лет прошло с момента последней вакцинации

Числовой

[1-32]

7

vaccination_date

дата последней вакцинации

Полиномиальный

[1985-1700]

8

victim_zip

почтовый индекс жертвы

Полиномиальный

[40216-40272]

9

AdvIssuedYNDesc

Была ли консультанция

Биномиальный

[YES,NO]

10

WhereBittenIDDesc

Где на теле жертвы укус

Полиномиальный

[BODY, HEAD, UNKNOWN]

11

quarantine_date

было ли животное помещено на карантин

Полиномиальный

[1985-1700]

12

DispositionIDDesc

было ли животное освобождено из карантина

Полиномиальный

[RELEASED, KILLED, UNKNOWN]

13

headsentdate

дата отправки головы животного в лабораторию

Полиномиальный

[1985-1700]

14

release_date

дата, когда животное было выпущено на свободу

Полиномиальный

[1985-1700]

15

ResultsIDDesc

результаты лабораторных анализов (на бешенство)

Биномиальный

[NEGATIVE, POSITIVE]-

Импортируем данные с локального источника данных для аналитической обработки (Рисунок 20).

Рисунок 20 – Результат импортирования

  1. Случайным образом удалим 30 значений атрибутов:

  • vaccination_yrs – численный тип данных

  • SpeciesIDDesc – полиномиальный

  • BreedIDDesc – – полиномиальный

  • Color – полиномиальный

  • victim_zip – полиномиальный

  • GenderIDDesc – полиномиальный

  • AdvIssuedYNDesc – биномиальный

  • ResultsIDDesc – биномиальный

Рисунок 21 – Результат удаление значений атрибутов

  1. Заменим 15 значений атрибутов на значения, не соответствующие типу данных:

  • vaccination_yrs – численный тип данных

  • SpeciesIDDesc – полиномиальный

  • BreedIDDesc – – полиномиальный

  • Color – полиномиальный

  • victim_zip – полиномиальный

  • GenderIDDesc – полиномиальный

Рисунок 22 – Результат замены значений атрибутов vaccination_yrs и SpeciesIDDesc

  1. Определим описание базовых статистических показателей атрибутов набора данных с удалёнными и изменёнными значениями.

Рисунок 23 – Базовые статистические показатели атрибута

  1. Заменим отсутствующие значения у половины атрибутов:

  • SpeciesIDDesc – полиномиальный

  • BreedIDDesc – – полиномиальный

  • ResultsIDDesc – биномиальный

  • vaccination_yrs – числовой

Атрибут SpeciesIDDesc имеет полиномиальный тип данных. Значением для замены будет мода, которую можно посмотреть на вкладке статистика. Модой для атрибута SpeciesIDDesc будет значение «DOG».

Рисунок 24 – Мода атрибута SpeciesIDDesc

Для замены отсутствующих показателей воспользуемся оператором ReplaceMissingValues.

Рисунок 25 – Добавление и настройка оператора Replace Missing Values для SpeciesIDDesc

Атрибут BreedIDDesc имеет полиномиальный тип данных. Значением для замены будет мода, которую можно посмотреть на вкладке статистика. Модой для атрибута BreedIDDesc будет значение «PIT BULL».

Рисунок 26 – Мода атрибута BreedIDDesc

Для замены отсутствующих показателей воспользуемся оператором ReplaceMissingValues.

Рисунок 27 – Добавление и настройка оператора Replace Missing Values для BreedIDDesc

Атрибут ResultsIDDesc имеет биномиальный тип данных. Значением для замены будет мода, которую можно посмотреть на вкладке статистика. Модой для атрибута ResultsIDDesc

будет значение «NEGATIVE».

Рисунок 28 – Мода атрибута ResultsIDDesc

Рисунок 29 – Добавление и настройка оператора Replace Missing Values для ResultsIDDesc

Атрибут vaccination_yrs имеет численный тип. Построим график распределения данных для этого атрибута. На графике видно, что распределение ассиметричное, необходимо рассчитать медиану. Значением для замены атрибута vaccination_yrs будет 1.

Рисунок 30 – График распределения vaccination_yrs

Рисунок 31 – Добавление и настройка оператора Replace Missing Values для vaccination_yrs

Результат замены отсутствующих значений у половины атрибутов.

Рисунок 32 – Результат применения операторов Replace Missing Values

  1. Заменим значения не соответствующих типу атрибутов:

  • BreedIDDesc – – полиномиальный

  • Color – полиномиальный

  • GenderIDDesc – биномиальный

  • vaccination_yrs – численный тип данных

Для BreedIDDesc значением для замены будет мода – WEINER DOG.

Рисунок 33 – Оператор Replace для атрибута BreedIDDesc

Для Color значением для замены будет мода – BLACK.

Рисунок 34 – Оператор Replace для атрибута Color

Для GenderIDDesc значением для замены будет мода – MALE.

Рисунок 35 – Оператор Replace для атрибута GenderIDDesc

Для vaccination_yrs значением для замены будет медиана – 1.

Рисунок 36 – Оператор Declare Missing Value для атрибута vaccination_yrs

Рисунок 37 – Оператор Replace Missing Values для атрибута vaccination_yrs

Результат замены значений не соответствующих типу атрибутов.

Рисунок 38 – Результат для атрибутов

  1. Удалим атрибуты, в которых остались либо отсутствующие значения, либо значения, не соответствующие типу атрибута.

Рисунок 39 – Выбор атрибутов

Рисунок 40 – Настройка оператора Select Attributes

Результат удаления атрибутов

Рисунок 41 – Результат после применения оператора Select Attributes

Рисунок 42 – Итоговый процесс

Вывод

В ходе лабораторной работы мы приобрели навыки подготовки набора данных для его интеллектуального анализа с помощью системы RapidMiner.