
Отчёт 1 лабораторная
.docx
Министерство цифрового развития, связи и массовых коммуникаций
Российской Федерации Ордена Трудового Красного Знамени
федеральное государственное бюджетное образовательное
учреждение высшего образования
Московский технический университет связи и информатики
Кафедра «Математическая кибернетика и информационные технологии»
Лабораторная работа №1
по дисциплине
«Управление данными»
Выполнила: студентка гр. БСТ2104
Первухина Алиса Александровна
Проверила:
Тимофеева Анна Ивановна
Москва
2024
Цель работы: Изучить и применить методы аналитики данных для исследования набора данных о пассажирах Титаника, используя Python и библиотеки pandas, matplotlib, seaborn. Анализ зависимостей между выживаемостью пассажиров и различными факторами, такими как возраст, пол, класс обслуживания и стоимость билета. Выявить значимые закономерности и визуализировать результаты анализа для облегчения интерпретации данных.
Задание:
1. Подготовка данных:
2. Анализ данных
3. Визуализация данных
4. Исследование имен
5. Дополнительное задание
Ход работы:
Импорт библиотек, создание объекта DataFrame.
Рис. 1 – импорт, создание датафрейма
Вывод содержимого DataFrame и его статистической информации.
Рис. 2 – вывод датафрейма
Сортировка данных в соответствии с условиями.
Рис. 3 – сортировка данных
Создание признака и его применение к DataFrame продемонстрировано на рисунках 4.1 – 4.?
Рис. 4.1 – создание признака и применение
Подсчёт количества мужчин и женщин на борту. Правильный вариант ответа: 577 мужчин и 314 женщин.
Рис. 4.2 – работа с признаком
Вывод распределения переменной Pclass. Подсчёт количества мужчин второго класса с использованием сортировки. Правильный ответ: 108 мужчин.
Рис. 4.3 – работа с признаком
Подсчёт медианы и стандартного отклонения платежей. Ответ: медиана 14.45, стандартное отклонение 49.69.
Рис. 4.4 – работа с признаком
Подсчёт доли выживших среди людей моложе 30 и старше 60.
Рис. 4.5 – работа с признаком
Подсчёт доли выживших среди мужчин и женщин.
Рис. 4.6 – работа с признаком
Подсчёт самого популярного мужского имени .
Рис. 4.7 – работа с признаком
Анализ с использованием гистограммы.
Рис. 4.8 – работа с признаком
Полученная гистограмма.
Рис. 4.9 – вывод графиков
Вывод: средний возраст погибших выше, чем у спасенных.
Подсчет среднего возраста мужчин и женщин в зависимости от класса обслуживания с использованием сортировки.
Верные ответы: в среднем мужчины 1-го класса старше 40 лет,
Рис. 4.10 – работа с признаком
Дополнительное задание
Группировка данных.
Рис. 5.1 – вывод первых пяти записей
Анализ колонки Temperature Category. Подсчитываем, сколько раз каждое уникальное значение встречается в столбце нашего датафрейма.
Рис. 5.2 – анализ колонки
Аналогично предыдущему анализируем колонку Temperature Category, но будут учитываться также и пропущенные значения (NaN). В обычном случае без этого параметра пропущенные значения игнорируются и не включаются.
Рис. 5.3 – анализ колонки
Подсчитывает количество значений в столбце Good Weather. 0 – погода плохая, 1 – погода хорошая.
Рис. 5.4 – анализ колонки
Подсчитывает количество записей для каждого уникального значения в столбце ‘Seasons’.
Рис. 5.5 – анализ колонки
Меры центральной тенденции
Рис. 6.1 – вывод первых пяти записей
Подсчитываем, как часто каждое уникальное значение встречается в столбце Humidity (влажность) датафрейма bikes. Выводим два наиболее часто встречающихся значения влажности вместе с их количеством.
Рис. 6.2 – анализ колонки
Создаём гистограмму для значений влажности используя 100 столбцов.
Рис. 6.3 – создание гистограммы
Метод describe предоставляет описательную статистику по данным датафрейма.
Count: количество непустых значений в каждом столбце
Mean: среднее значение данных по каждому столбцу
Std: стандартное отклонение, показывающее разброс данных относительно среднего значения
Min: минимальное значение в каждом столбце
25%: первый квартиль, значение, ниже котоьрого находится 25% данных
50%: второй квартиль или медиана, значение, ниже которого находится 50% данных.
75%: третий квартиль, значение, ниже которого находится 75% данных
Max: максимальное значение в каждом столбце
Рис. 6.4 – описательная статистика
Меры разброса.
Рис. 7.1 – вывод первых пяти записей
Группируем данные по столбцу Hour – час, в течение которого были совершены аренды велосипедов. Для каждого часа суммируем значения в столбце Rental Count, который отображает количество аренд велосипедов.
Выводим столбчатую диаграмму для нового датафрейма.
Рис. 7.2 – вывод нового датафрейма
Выводим описательную статистику для нового датафрейма.
Рис. 7.3 – описательная статистика
Вычисляем размах, интерквартильный размах и перцентили.
Рис. 7.4. – вычисление
Подсчёт выборочной дисперсии и стандартного отклонения.
Рис. 7.5 – вычисление выборочной дисперсии и стандартного отклонения
Подсчёт дисперсии и стандартного отклонения
Рис. 7.6 – вычисление дисперсии и стандартного отклонения
Подсчёт популяционной дисперсии и стандартного отклонения.
Рис. 7.7 – вычисление популяционной дисперсии и стандартного отклонения
Группируем данные в датафрейме bikes по столбцу Hour и затем вычисляем стандартное отклонение для Rental Count в каждой группе (часе).
То есть для каждого часа мы рассчитываем стандартное отклонение количества аренд велосипедов.
Рис. 7.8 – вычисление стандартного отклонения
Вывод
В результате проделанной лабораторной работы были приобретены практические навыки для первичного анализа данных с помощью программной библиотеки Pandas на языке Python.