
Архангельский М.В. УД л.р. 2
.pdfМинистерство цифрового развития, связи и массовых коммуникаций Российской Федерации Ордена Трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования
Московский технический университет связи и информатики
Кафедра «Математическая кибернетика и информационные технологии»
Лабораторная работа №2
по дисциплине «Управление данными»
Выполнил: студент 4 курса группы БСТ2154
Архангельский Максим Вячеславович
Проверил: Иевлев К.О.
Москва 2024
Цель работы: Изучить и применить методы аналитики данных для исследования набора данных об учениках, используя Python и библиотеки pandas, matplotlib, seaborn. Расчёт z-score, выбросов, пропущенных значений и корреляции для файла с данными о велосипедных арендах с различными метеорологическими и временными параметрами.
Задание:
1.Подготовка данных
2.Анализ данных
4.Применение Z-score
5.Расчёт выбросов
6.Работы с пропущенными значениями
7.Вычисление корреляции
8.Визуализация данных

Ход работы:
1. Z-оценка
Загрузим датасет eng_csv, уберем ‘;’ через сепаратор и получим датафрейм,
состоящий из 4 столбцов: id ученика, Exam, Score и Advanced. Выгрузим первые 5 элементов.
Рис. 1 – вывод датафрейма eng_test
Построим гистограмму по оценкам студентов.

Рис. 2 – создание гистограммы по всем оценкам студентов
Создадим переменную, содержащую информацию только об оценках TOEFL и выведем гистограмму и основные статистики.

Рис. 3 – создание гистограммы для оценок TOEFL
Основные характеристики TOEFL:
Рис. 4 – основные характеристики TOEFL
Аналогично создадим переменную, содержащую информацию только об оценках IELTS и выведем гистограмму и основные статистики

Рис. 5 – создание гистограммы для оценок IELTS
Основные характеристики IELTS:
Рис. 6 – основные характеристики IELTS
Посчитаем z-score для первого студента в списке toefl. Также выведем стандартное отклонение, среднее и само кол-во баллов.

Рис. 6 – подсчёт характеристик
Сохраним в переменные Z-score для IELTS и TOEFL, соберем полученные результаты обратно в один датафрейм.
Рис. 7 – z-scores для IELTS и TOEFL
Рассчитаем, кто написал экзамен хуже, чем 3 стандартных отклонения.
Рис. 8 – расчёт оценки

Рассчитаем, кто сдал экзамен лучше? Те, кто брали продвинутый курс или нет?
Рис. 9 – расчёт

2. Выбросы
Разберем, как выбросы влияют на меры центральной тенденции.
Выгрузим файл в датафрейм bikes, содержащий информацию о велосипедных арендах, собранные за определённый период времени. Датафрейм включает в себя следующие колонки:
1.Date: Дата наблюдения.
2.Hour: Час дня, когда производилось наблюдение.
3.Temperature: Температура воздуха в градусах Цельсия.
4.Humidity: Влажность воздуха в процентах.
5.Wind speed: Скорость ветра в м/с.
6.Rainfall: Количество осадков в мм.
7.Snowfall: Высота снежного покрова в см.
8.Seasons: Время года (например, Зима).
9.Holiday: Индикатор праздничного дня (0 - не праздник, 1 - праздник).
10.Functioning Day: Логическое значение, указывающее, является ли день рабочим для службы велосипедных аренд (True - да, False - нет).
11.Rental Count: Количество велосипедов, арендованных в течение данного часа.
12.Normal Humidity: Индикатор нормальной влажности (0 или 1), возможно, определённый на основе некоторого порогового значения.
13.Temperature Category: Категория температуры (например, "Freezing" для очень низких температур).
14.Good Weather: Индикатор хорошей погоды (0 или 1), возможно,
основанный на комбинации условий погоды, таких как осадки, температура и ветер.
Рис.10 – вывод датафрейма bikes

Выведем статическое описание колонки Rental count.
Рис.10 – вывод статического описания
Найдём интерквартильный размах по атрибуту 'Rental Count', а также выведем значения q1 - 1.5 * iqr, q3 + 1.5 * iqr.
Рис.11 – расчёт значений