- •Глава 1. Анализ предметной области 6
- •Глава 2. Описание набора данных 9
- •Глава 3. Выполнение задания 13
- •Введение
- •Глава 1. Анализ предметной области
- •1.1. Применение языка Python для анализа данных
- •1.2. Синтаксис языка Python
- •1.3. Библиотеки и инструменты для анализа и визуализации данных
- •Глава 2. Описание набора данных
- •2.1. Общая информация о наборе данных
- •2.2. Описание столбцов набора данных
- •2.3. Базовая статистика
- •Глава 3. Выполнение задания
- •3.1. Загрузка первичных данных
- •3.2. Очистка данных
- •3.3. Выполнение запросов для выявления закономерностей
- •3.4. Визуализация данных
- •3.5 Корреляционный и регрессионный анализ
- •Приложение
3.2. Очистка данных
Очистка данных представляет собой важный этап в аналитическом проекте. Для работы с данными о дорожных происшествиях этот процесс включает устранение несоответствий, заполнение пропусков и упрощение структуры данных, что позволяет значительно повысить качество и точность последующего анализа.
Удаление несбалансированных столбцов — это чистые, а следовательно, более наглядные данные. В базе данных столбец Carriageway_Hazards оказался неинформативным для анализа и был исключён из набора данных (Приложение Б, Блок кода 1). Это упрощает модель и помогает сосредоточиться на более значимых признаках.
Далее производится заполнение отсутствующих значений в ключевых столбцах. Например, в столбце Road_Surface_Conditions отсутствующие значения заполняются наиболее часто встречающимся значением. Аналогично обрабатывается и столбец Road_Type. Этот подход сохраняет целостность данных, избегая введения случайных или необоснованных значений.
Корректировка значений в столбце Accident_Severity является следующим этапом. Здесь исправлена опечатка, и все значения 'Fetal' заменены на 'Fatal'. Это помогает избежать ошибок при анализе данных и обеспечивает однородность информации.
Некоторые столбцы могут быть удалены из-за их незначимости для анализа или избыточности. В данном случае такие столбцы, как Latitude, Longitude, Junction_Control, Local_Authority_(District) и Police_Force были исключены (Приложение Б, Блок кода 2). На мой взгляд они имеют низкую корреляцию с целевыми переменными и это поможет оптимизировать структуры данных (рисунок 3.3).
Рисунок 3.3 – Очищенная БД с только необходимыми столбцами
Далее осуществляется сопоставление состояния дорожного покрытия с соответствующими погодными условиями для заполнения недостающих значений. Создаётся соответствие между состоянием дорожного покрытия и погодными условиями. Например, если состояние дороги указано как 'Fine no high winds', то погодные условия заполняются значением ’Dry’. Этот метод позволяет выводить закономерности более наглядными и объемными.
Если после всех предыдущих этапов остаются незаполненные значения, они заполняются значением 'Other' (Приложение Б, Блок кода 3). Это помогает сохранить целостность данных и гарантирует, что все записи будут включены в последующий анализ.
Очистка обеспечивает точность и надёжность итоговых результатов, что позволяет сделать более обоснованные выводы и рекомендации. Без тщательной очистки данных риск ошибок и искажений в анализе существенно возрастает, что может негативно сказаться на принятии решений.
3.3. Выполнение запросов для выявления закономерностей
После загрузки и очистки данных, следующим этапом является выполнение запросов, направленных на выявление закономерностей в дорожных происшествиях. Этот процесс включает анализ данных для понимания тенденций и факторов, влияющих на частоту и тяжесть аварий.
Первоначально было исследовано распределение происшествий по дням недели (Приложение В, Блок кода 1). Анализ показал, что количество происшествий варьируется в зависимости от дня недели. Например, пятница и четверг являются днями с наибольшим количеством аварий, а воскресенье с наименьшим. Такая информация важна для планирования профилактических мероприятий и распределения ресурсов городских служб (рисунок 3.4).
Рисунок 3.4 – Количество происшествий по дням недели
Далее было проведено исследование распределения аварий в зависимости от ограничений скорости на участках дорог (Приложение В, Блок кода 2). Анализ данных о скоростных ограничениях показал, что наиболее частые происшествия происходят на участках с ограничением скорости 60 и 40 миль/ч. Эти данные могут быть использованы для анализа эффективности текущих ограничений скорости и принятия решений о необходимости их пересмотра (рисунок 3.5).
Рисунок 3.5 – Количество происшествий по датам
Также был проведен анализ количества происшествий по датам (Приложение В, Блок кода 3). Это позволяет выявить возможные сезонные тенденции и аномальные пики в количестве аварий. Например, определённые даты могут показывать повышенное количество происшествий из-за праздничных дней, плохих погодных условий или других факторов (рисунок 3.6).
Рисунок 3.6 – Количество происшествий по датам
Все эти запросы и их результаты помогают выявить факторы, влияющие на аварийность, что в свою очередь позволяет разработать более эффективные меры по повышению безопасности на дорогах и изменению правил дорожного движения.
