Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Архангельский М.В. 2154 УД л.р

.1.pdf
Скачиваний:
10
Добавлен:
07.04.2025
Размер:
1.29 Mб
Скачать

Домашнее задание часть 2.

Задание

1.Группировка данных

2.Меры центральной тенденции

3.Меры разброса

Ход работы: Группировка данных

1.Подключение библиотеки и считывание данных из файла

2.Анализ колонки Temperature Category. Подсчитываем, сколько раз каждое уникальное значение встречается в столбце нашего датафрейма.

3. Аналогично предыдущему анализируем колонку Temperature Category, но будут учитываться также и пропущенные значения (NaN). В обычном случае

без этого параметра пропущенные значения игнорируются и не включаются.

4. Анализируем количество значений в столбце Good Weather. 0 – погода

плохая, 1 – погода хорошая.

5. Анализируем уникальные значения в столбце ‘Seasons’.

Меры центральной тенденции

1. Импорт библиотек, считывание данных и вывод первых 5 записей

2.Анализ каждого уникального значения в столбце Humidity (влажность) датафрейма bikes. Выводим два наиболее часто встречающихся значения влажности вместе с их количеством.

3.Гистограмма для значений влажности.

4. Вывод описательной статистики по данным датафрейма. Count: количество непустых значений в каждом столбце Mean: среднее значение данных по каждому столбцу

Std: стандартное отклонение, показывающее разброс данных относительно среднего значения

Min: минимальное значение в каждом столбце

25%: первый квартиль, значение, ниже котоьрого находится 25% данных

50%: второй квартиль или медиана, значение, ниже которого находится 50% данных.

75%: третий квартиль, значение, ниже которого находится 75% данных Max: максимальное значение в каждом столбце

Меры разброса

1.Импорт библиотек, считывание данных и вывод первых 5 записей

2.Группируем данные по столбцу Hour – час, в течение которого были совершены аренды велосипедов. Для каждого часа суммируем значения в столбце Rental Count, который отображает количество аренд велосипедов.

3. Выводим столбчатую диаграмму для нового датафрейма.

4. Вывод описательной статистики по данным датафрейма

5. Вычисляем размах, интерквартильный размах и перцентили.

6. Подсчёт выборочной дисперсии и стандартного отклонения

7. Подсчёт дисперсии и стандартного отклонения

8. Подсчёт популяционной дисперсии и стандартного отклонения.

9.Группируем данные в датафрейме bikes по столбцу Hour и затем вычисляем стандартное отклонение для Rental Count в каждой группе (часе).

Вывод

В результате проделанной лабораторной работы были приобретены практические навыки для первичного анализа данных с помощью программной библиотеки Pandas на языке Python.