Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ЛР / ЛР№5_Хакова_Ю_М_ИСТ_223

.docx
Скачиваний:
0
Добавлен:
07.06.2026
Размер:
90.82 Кб
Скачать

Лабораторная работа №5

Хакова Юлия Маратовна ИСТ-223

2024-10-28

Цели лабораторной работы:

  1. Приобретение навыков работы с пакетами языка R для разведочного анализа данных.

  2. Применение навыков работы в области визуализации данных (диаграммы, графики и т.п.).

  3. Освоение основных способов быстрого создания и передачи отчетов о результатах анализа данных.

Ход работы

  1. Загрузка данных из файла seeds_dataset и присвоение столбцам названий, обработка данных;

  2. Проведение разведочного анализа данных;

  3. Визуализация данных, построение графиков;

  4. Создание отчета с помощью R Markdown.

library(ggplot2) library(dplyr)

## ## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats': ## ## filter, lag

## The following objects are masked from 'package:base': ## ## intersect, setdiff, setequal, union

data <- read.table("/Users/ulahakova/Downloads/seeds_dataset.txt", header = FALSE, col.names = c("area", "perimeter", "compactness", "length_of_kernel", "width_of_kernel", "asymmetry_coefficient", "length_of_kernel_groove", "number")) head(data)

## area perimeter compactness length_of_kernel width_of_kernel ## 1 15.26 14.84 0.8710 5.763 3.312 ## 2 14.88 14.57 0.8811 5.554 3.333 ## 3 14.29 14.09 0.9050 5.291 3.337 ## 4 13.84 13.94 0.8955 5.324 3.379 ## 5 16.14 14.99 0.9034 5.658 3.562 ## 6 14.38 14.21 0.8951 5.386 3.312 ## asymmetry_coefficient length_of_kernel_groove number ## 1 2.221 5.220 1 ## 2 1.018 4.956 1 ## 3 2.699 4.825 1 ## 4 2.259 4.805 1 ## 5 1.355 5.175 1 ## 6 2.462 4.956 1

Присвоение числовым значениям столбца number текстовые метки: “Kama”, “Rosa” и “Canadian”.

data$number <- factor(data$number, labels = c("Kama", "Rosa", "Canadian"))

Вывод основных статистик для каждого столбца с помощью функции summary().

summary(data)

## area perimeter compactness length_of_kernel ## Min. :10.59 Min. :12.41 Min. :0.8081 Min. :4.899 ## 1st Qu.:12.27 1st Qu.:13.45 1st Qu.:0.8569 1st Qu.:5.262 ## Median :14.36 Median :14.32 Median :0.8734 Median :5.524 ## Mean :14.85 Mean :14.56 Mean :0.8710 Mean :5.629 ## 3rd Qu.:17.30 3rd Qu.:15.71 3rd Qu.:0.8878 3rd Qu.:5.980 ## Max. :21.18 Max. :17.25 Max. :0.9183 Max. :6.675 ## width_of_kernel asymmetry_coefficient length_of_kernel_groove number ## Min. :2.630 Min. :0.7651 Min. :4.519 Kama :70 ## 1st Qu.:2.944 1st Qu.:2.5615 1st Qu.:5.045 Rosa :70 ## Median :3.237 Median :3.5990 Median :5.223 Canadian:70 ## Mean :3.259 Mean :3.7002 Mean :5.408 ## 3rd Qu.:3.562 3rd Qu.:4.7687 3rd Qu.:5.877 ## Max. :4.033 Max. :8.4560 Max. :6.550

Вычисление корреляционной матрицы для первых семи столбцов для определения взаимосвязей между ними.

correlation_matrix <- cor(data[, 1:7])

Построение графиков

ggplot(data, aes(x = area, fill = number)) + geom_histogram(position = "dodge", bins = 15) + labs(title = "Распределение площади зерен по сортам пшеницы", x = "Площадь", y = "Частота") + theme_minimal()

ggplot(data, aes(x = number, y = width_of_kernel, fill = number)) + geom_boxplot() + labs(title = "Ширина ядра по сортам пшеницы", x = "Сорт", y = "Ширина ядра") + theme_minimal()

data_pie <- data %>% group_by(number) %>% summarise(count = n()) %>% mutate(percentage = count / sum(count) * 100)

ggplot(data_pie, aes(x = "", y = percentage, fill = number)) + geom_bar(stat = "identity", width = 1) + coord_polar("y") + labs(title = "Распределение сортов пшеницы", x = NULL, y = NULL) + theme_minimal() + theme(axis.text.x = element_blank(), axis.ticks = element_blank(), panel.grid = element_blank()) + geom_text(aes(label = paste0(round(percentage, 1), "%")), position = position_stack(vjust = 0.5), color = "white", size = 5)

Вывод:

В данной лабораторной работе был проведен предварительный анализ данных-EDA для изучения характеристик зерен пшеницы трех сортов: Кама, Роза и Канадская. Их особенности и распределение по различным параметрам можно было описать, используя как статистические, так и графические методы анализа данных. Мною был получен опыт проведения разведочного анализа данных, а также создания отчетов с помощью R Markdown.