Архангельский М.В. УД л.р. 2
.pdf
Рис.12 – расчёт значений
Определим, в какие часы какое количество выбросов было зафиксировано.
(value_counts).
Рис.13 – расчёт значений
Выведем количество выбросов по сезонам.
Рис.14 – расчёт значений
Выведите среднее, среднеквадратичное отклонение и пороги для атрибута Rental Count (+- 2.5 стандартных отклонений)
Рис.15 – расчёт значений
Определим количество выбросов по данной метрике (Rental Count с shape)
Рис.16 – расчёт значений
Рис.17 – расчёт значений
Вывод: медиана — это более надежный показатель для описания нашего набора данных, когда в данных есть выбросы, потому что она менее подвержена их влиянию .Медиана изменится меньше, если вообще изменится, потому что она более устойчива к выбросам. Медиана — это значение, которое делит ваши данные пополам, и она не зависит от того, насколько экстремальны значения за пределами середины.
3. Пропущенные значения
Выгрузим файл в датафрейм bikes, содержащий информацию о велосипедных арендах, собранные за определённый период времени.
Рис.18 – выгрузка файла
Выведем информацию о столбцах датафрейма.
Рис.19 – вывод информации о столбцах
Рис. 20 – информация о пустых ячейках датафрейма
Рис.21 – информация о заполненных ячейках
Заполним пустые ячейки числом 42.
Рис.22 – заполнение пустых ячеек
Заполним пустые ячейки в bikes медианой. (но сохраняем в другую колонку)
Рис.23 – создание новой колонки
Заполним пустые ячейки рандомными значениями. Из доступных значений температур без пропусков случайным образом выбираются 8760 значений, которые могут повторяться. Для генерации случайных значений используются только заполненные (не пропущенные) значения температуры.
Рис.24 – заполнение рандомными значенями
Создадим новую колонку 'Temperature_Random', заполним пустые значения из Temperature, сохранив новые значчения в Temperature_Random. Значения взяты из temps.
Рис.25 – создание новой колонки
1.Выбираем столбец Date и преобразуем его в дату/время (если он уже не в таком формате)
2.Из этой даты/времени извлекается номер недели по ISO календарю. (ISO неделя начинается с понедельника, и первая неделя года — та, которая содержит первый четверг года)
3.Группируем по двум критериям: номер недели и часу
4.Для каждой каждой уникальной пары неделя-час вычисляется медианное значение температуры
Врезультате для первой недели года медианные значения температуры варьируются от -4.3°C в 0 часов до -5.5°C в 3 часа ночи.
Рис.26 – группировка по номеру недели и часы и медианное значение
1.Группировка данных по двум критериям: неделя по ISO и час.
2.Выбор столбца 'Temperature' для анализа
3.Применение трансформации к каждой группе, вычисление медианного значения температуры для этой группы. (с аргументом 'median')
Пояснение вывода: значение 2.75 для индекса 0 означает, что медианная температура для первого часа недели (по ISO календарю), к которому относится запись с индексом 0, составляет 2.75°C.
Рис.27 – группировка значений
1.Заполнение пропущенных значений в столбце Temperature медианными значениями температуры для каждой группы, сформированной по неделе и часу.
2.Сохраняем результат в новом столбце Temperature_Median_Group
3.Фильтруем bikes, чтобы вывести первые пять записей, где значения в столбце Temperature изначально были пропущены (NaN).
Рис.28 – группировка значений
1.Загрузка нового датафрейма из файла
2.Заполнение пропущенных значений в Temperature медианными значениями
Рис.29 – загрузка нового датафрейма
1.Определение функции get_temp_cat
2.Применяет функцию к каждому значению в столбце Temperature датафрейма
3.Создание нового категориального столбца (переменные с фиксированным числом категорий)
Рис.30 – создание нового категориального столбца.
4. Корреляция
Сохраним новый файл как датафрейм в переменную.
Рис.31 – выгрузка нового фалйа
Рис.32 – агрегация
Рис.33 – подсчёт X-Mx и Y-My
Рис.34 – подсчёт значений
Рис.35 – корреляция генеральной совокупности
Рис.36 – построение графика рассеивания
Используем corr для вычисления коэффициента корреляции Пирсона между всеми парами столбцов в датафрейме. Каждая ячейка датафрейма будет содержать значение коэффициента корреляции между соответствующими парами столбцов. Полезно для быстро оценки, какие переменные связаны между собой и как сильно.
Рис.37 – корреляция между всеми столбцами
Группируем записи по неделям на основе даты, а затем вычисляем среднее значение влажности для каждой недели.
Затем группируем записи по неделям и вычисляет среднюю скорость ветра для каждой недели.
Рис.38 – группировка
Получим агрегированные данные по неделям, включая среднюю температуру, общее количество аренд, среднюю влажность и среднюю
