Добавил:
мой вк: vk.com/truecrimebitch больше работ здесь: https://github.com/alisadex Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Отчёт 1 лабораторная

.docx
Скачиваний:
17
Добавлен:
11.07.2024
Размер:
1.18 Mб
Скачать

Министерство цифрового развития, связи и массовых коммуникаций

Российской Федерации Ордена Трудового Красного Знамени

федеральное государственное бюджетное образовательное

учреждение высшего образования

Московский технический университет связи и информатики

Кафедра «Математическая кибернетика и информационные технологии»

Лабораторная работа №1

по дисциплине

«Управление данными»

Выполнила: студентка гр. БСТ2104

Первухина Алиса Александровна

Проверила:

Тимофеева Анна Ивановна

Москва

2024

Цель работы: Изучить и применить методы аналитики данных для исследования набора данных о пассажирах Титаника, используя Python и библиотеки pandas, matplotlib, seaborn. Анализ зависимостей между выживаемостью пассажиров и различными факторами, такими как возраст, пол, класс обслуживания и стоимость билета. Выявить значимые закономерности и визуализировать результаты анализа для облегчения интерпретации данных.

Задание:

1. Подготовка данных:

2. Анализ данных

3. Визуализация данных

4. Исследование имен

5. Дополнительное задание

Ход работы:

Импорт библиотек, создание объекта DataFrame.

Рис. 1 – импорт, создание датафрейма

Вывод содержимого DataFrame и его статистической информации.

Рис. 2 – вывод датафрейма

Сортировка данных в соответствии с условиями.

Рис. 3 – сортировка данных

Создание признака и его применение к DataFrame продемонстрировано на рисунках 4.1 – 4.?

Рис. 4.1 – создание признака и применение

Подсчёт количества мужчин и женщин на борту. Правильный вариант ответа: 577 мужчин и 314 женщин.

Рис. 4.2 – работа с признаком

Вывод распределения переменной Pclass. Подсчёт количества мужчин второго класса с использованием сортировки. Правильный ответ: 108 мужчин.

Рис. 4.3 – работа с признаком

Подсчёт медианы и стандартного отклонения платежей. Ответ: медиана 14.45, стандартное отклонение 49.69.

Рис. 4.4 – работа с признаком

Подсчёт доли выживших среди людей моложе 30 и старше 60.

Рис. 4.5 – работа с признаком

Подсчёт доли выживших среди мужчин и женщин.

Рис. 4.6 – работа с признаком

Подсчёт самого популярного мужского имени .

Рис. 4.7 – работа с признаком

Анализ с использованием гистограммы.

Рис. 4.8 – работа с признаком

Полученная гистограмма.

Рис. 4.9 – вывод графиков

Вывод: средний возраст погибших выше, чем у спасенных.

Подсчет среднего возраста мужчин и женщин в зависимости от класса обслуживания с использованием сортировки.

Верные ответы: в среднем мужчины 1-го класса старше 40 лет,

Рис. 4.10 – работа с признаком

Дополнительное задание

Группировка данных.

Рис. 5.1 – вывод первых пяти записей

Анализ колонки Temperature Category. Подсчитываем, сколько раз каждое уникальное значение встречается в столбце нашего датафрейма.

Рис. 5.2 – анализ колонки

Аналогично предыдущему анализируем колонку Temperature Category, но будут учитываться также и пропущенные значения (NaN). В обычном случае без этого параметра пропущенные значения игнорируются и не включаются.

Рис. 5.3 – анализ колонки

Подсчитывает количество значений в столбце Good Weather. 0 – погода плохая, 1 – погода хорошая.

Рис. 5.4 – анализ колонки

Подсчитывает количество записей для каждого уникального значения в столбце ‘Seasons’.

Рис. 5.5 – анализ колонки

Меры центральной тенденции

Рис. 6.1 – вывод первых пяти записей

Подсчитываем, как часто каждое уникальное значение встречается в столбце Humidity (влажность) датафрейма bikes. Выводим два наиболее часто встречающихся значения влажности вместе с их количеством.

Рис. 6.2 – анализ колонки

Создаём гистограмму для значений влажности используя 100 столбцов.

Рис. 6.3 – создание гистограммы

Метод describe предоставляет описательную статистику по данным датафрейма.

Count: количество непустых значений в каждом столбце

Mean: среднее значение данных по каждому столбцу

Std: стандартное отклонение, показывающее разброс данных относительно среднего значения

Min: минимальное значение в каждом столбце

25%: первый квартиль, значение, ниже котоьрого находится 25% данных

50%: второй квартиль или медиана, значение, ниже которого находится 50% данных.

75%: третий квартиль, значение, ниже которого находится 75% данных

Max: максимальное значение в каждом столбце

Рис. 6.4 – описательная статистика

Меры разброса.

Рис. 7.1 – вывод первых пяти записей

Группируем данные по столбцу Hour – час, в течение которого были совершены аренды велосипедов. Для каждого часа суммируем значения в столбце Rental Count, который отображает количество аренд велосипедов.

Выводим столбчатую диаграмму для нового датафрейма.

Рис. 7.2 – вывод нового датафрейма

Выводим описательную статистику для нового датафрейма.

Рис. 7.3 – описательная статистика

Вычисляем размах, интерквартильный размах и перцентили.

Рис. 7.4. – вычисление

Подсчёт выборочной дисперсии и стандартного отклонения.

Рис. 7.5 – вычисление выборочной дисперсии и стандартного отклонения

Подсчёт дисперсии и стандартного отклонения

Рис. 7.6 – вычисление дисперсии и стандартного отклонения

Подсчёт популяционной дисперсии и стандартного отклонения.

Рис. 7.7 – вычисление популяционной дисперсии и стандартного отклонения

Группируем данные в датафрейме bikes по столбцу Hour и затем вычисляем стандартное отклонение для Rental Count в каждой группе (часе).

То есть для каждого часа мы рассчитываем стандартное отклонение количества аренд велосипедов.

Рис. 7.8 – вычисление стандартного отклонения

Вывод

В результате проделанной лабораторной работы были приобретены практические навыки для первичного анализа данных с помощью программной библиотеки Pandas на языке Python.