Архангельский М.В. 2154 УД л.р
.1.pdf
Домашнее задание часть 2.
Задание
1.Группировка данных
2.Меры центральной тенденции
3.Меры разброса
Ход работы: Группировка данных
1.Подключение библиотеки и считывание данных из файла
2.Анализ колонки Temperature Category. Подсчитываем, сколько раз каждое уникальное значение встречается в столбце нашего датафрейма.
3. Аналогично предыдущему анализируем колонку Temperature Category, но будут учитываться также и пропущенные значения (NaN). В обычном случае
без этого параметра пропущенные значения игнорируются и не включаются.
4. Анализируем количество значений в столбце Good Weather. 0 – погода
плохая, 1 – погода хорошая. 
5. Анализируем уникальные значения в столбце ‘Seasons’.
Меры центральной тенденции
1. Импорт библиотек, считывание данных и вывод первых 5 записей
2.Анализ каждого уникального значения в столбце Humidity (влажность) датафрейма bikes. Выводим два наиболее часто встречающихся значения влажности вместе с их количеством.
3.Гистограмма для значений влажности.
4. Вывод описательной статистики по данным датафрейма. Count: количество непустых значений в каждом столбце Mean: среднее значение данных по каждому столбцу
Std: стандартное отклонение, показывающее разброс данных относительно среднего значения
Min: минимальное значение в каждом столбце
25%: первый квартиль, значение, ниже котоьрого находится 25% данных
50%: второй квартиль или медиана, значение, ниже которого находится 50% данных.
75%: третий квартиль, значение, ниже которого находится 75% данных Max: максимальное значение в каждом столбце
Меры разброса
1.Импорт библиотек, считывание данных и вывод первых 5 записей
2.Группируем данные по столбцу Hour – час, в течение которого были совершены аренды велосипедов. Для каждого часа суммируем значения в столбце Rental Count, который отображает количество аренд велосипедов.
3. Выводим столбчатую диаграмму для нового датафрейма.
4. Вывод описательной статистики по данным датафрейма
5. Вычисляем размах, интерквартильный размах и перцентили.
6. Подсчёт выборочной дисперсии и стандартного отклонения
7. Подсчёт дисперсии и стандартного отклонения
8. Подсчёт популяционной дисперсии и стандартного отклонения.
9.Группируем данные в датафрейме bikes по столбцу Hour и затем вычисляем стандартное отклонение для Rental Count в каждой группе (часе).
Вывод
В результате проделанной лабораторной работы были приобретены практические навыки для первичного анализа данных с помощью программной библиотеки Pandas на языке Python.
