Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Архангельский М.В. УД л.р. 2

.pdf
Скачиваний:
0
Добавлен:
07.04.2025
Размер:
1.57 Mб
Скачать

Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации Ордена Трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования

Московский технический университет связи и информатики

Кафедра «Математическая кибернетика и информационные технологии»

Лабораторная работа №2

по дисциплине «Управление данными»

Выполнил: студент 4 курса группы БСТ2154

Архангельский Максим Вячеславович

Проверил: Иевлев К.О.

Москва 2024

Цель работы: Изучить и применить методы аналитики данных для исследования набора данных об учениках, используя Python и библиотеки pandas, matplotlib, seaborn. Расчёт z-score, выбросов, пропущенных значений и корреляции для файла с данными о велосипедных арендах с различными метеорологическими и временными параметрами.

Задание:

1.Подготовка данных

2.Анализ данных

4.Применение Z-score

5.Расчёт выбросов

6.Работы с пропущенными значениями

7.Вычисление корреляции

8.Визуализация данных

Ход работы:

1. Z-оценка

Загрузим датасет eng_csv, уберем ‘;’ через сепаратор и получим датафрейм,

состоящий из 4 столбцов: id ученика, Exam, Score и Advanced. Выгрузим первые 5 элементов.

Рис. 1 – вывод датафрейма eng_test

Построим гистограмму по оценкам студентов.

Рис. 2 – создание гистограммы по всем оценкам студентов

Создадим переменную, содержащую информацию только об оценках TOEFL и выведем гистограмму и основные статистики.

Рис. 3 – создание гистограммы для оценок TOEFL

Основные характеристики TOEFL:

Рис. 4 – основные характеристики TOEFL

Аналогично создадим переменную, содержащую информацию только об оценках IELTS и выведем гистограмму и основные статистики

Рис. 5 – создание гистограммы для оценок IELTS

Основные характеристики IELTS:

Рис. 6 – основные характеристики IELTS

Посчитаем z-score для первого студента в списке toefl. Также выведем стандартное отклонение, среднее и само кол-во баллов.

Рис. 6 – подсчёт характеристик

Сохраним в переменные Z-score для IELTS и TOEFL, соберем полученные результаты обратно в один датафрейм.

Рис. 7 – z-scores для IELTS и TOEFL

Рассчитаем, кто написал экзамен хуже, чем 3 стандартных отклонения.

Рис. 8 – расчёт оценки

Рассчитаем, кто сдал экзамен лучше? Те, кто брали продвинутый курс или нет?

Рис. 9 – расчёт

2. Выбросы

Разберем, как выбросы влияют на меры центральной тенденции.

Выгрузим файл в датафрейм bikes, содержащий информацию о велосипедных арендах, собранные за определённый период времени. Датафрейм включает в себя следующие колонки:

1.Date: Дата наблюдения.

2.Hour: Час дня, когда производилось наблюдение.

3.Temperature: Температура воздуха в градусах Цельсия.

4.Humidity: Влажность воздуха в процентах.

5.Wind speed: Скорость ветра в м/с.

6.Rainfall: Количество осадков в мм.

7.Snowfall: Высота снежного покрова в см.

8.Seasons: Время года (например, Зима).

9.Holiday: Индикатор праздничного дня (0 - не праздник, 1 - праздник).

10.Functioning Day: Логическое значение, указывающее, является ли день рабочим для службы велосипедных аренд (True - да, False - нет).

11.Rental Count: Количество велосипедов, арендованных в течение данного часа.

12.Normal Humidity: Индикатор нормальной влажности (0 или 1), возможно, определённый на основе некоторого порогового значения.

13.Temperature Category: Категория температуры (например, "Freezing" для очень низких температур).

14.Good Weather: Индикатор хорошей погоды (0 или 1), возможно,

основанный на комбинации условий погоды, таких как осадки, температура и ветер.

Рис.10 – вывод датафрейма bikes

Выведем статическое описание колонки Rental count.

Рис.10 – вывод статического описания

Найдём интерквартильный размах по атрибуту 'Rental Count', а также выведем значения q1 - 1.5 * iqr, q3 + 1.5 * iqr.

Рис.11 – расчёт значений