3.2. Очистка данных

Очистка данных представляет собой важный этап в аналитическом проекте. Для работы с данными о дорожных происшествиях этот процесс включает устранение несоответствий, заполнение пропусков и упрощение структуры данных, что позволяет значительно повысить качество и точность последующего анализа.

Удаление несбалансированных столбцов — это чистые, а следовательно, более наглядные данные. В базе данных столбец Carriageway_Hazards оказался неинформативным для анализа и был исключён из набора данных (Приложение Б, Блок кода 1). Это упрощает модель и помогает сосредоточиться на более значимых признаках.

Далее производится заполнение отсутствующих значений в ключевых столбцах. Например, в столбце Road_Surface_Conditions отсутствующие значения заполняются наиболее часто встречающимся значением. Аналогично обрабатывается и столбец Road_Type. Этот подход сохраняет целостность данных, избегая введения случайных или необоснованных значений.

Корректировка значений в столбце Accident_Severity является следующим этапом. Здесь исправлена опечатка, и все значения 'Fetal' заменены на 'Fatal'. Это помогает избежать ошибок при анализе данных и обеспечивает однородность информации.

Некоторые столбцы могут быть удалены из-за их незначимости для анализа или избыточности. В данном случае такие столбцы, как Latitude, Longitude, Junction_Control, Local_Authority_(District) и Police_Force были исключены (Приложение Б, Блок кода 2). На мой взгляд они имеют низкую корреляцию с целевыми переменными и это поможет оптимизировать структуры данных (рисунок 3.3).

Рисунок 3.3 – Очищенная БД с только необходимыми столбцами

Далее осуществляется сопоставление состояния дорожного покрытия с соответствующими погодными условиями для заполнения недостающих значений. Создаётся соответствие между состоянием дорожного покрытия и погодными условиями. Например, если состояние дороги указано как 'Fine no high winds', то погодные условия заполняются значением ’Dry’. Этот метод позволяет выводить закономерности более наглядными и объемными.

Если после всех предыдущих этапов остаются незаполненные значения, они заполняются значением 'Other' (Приложение Б, Блок кода 3). Это помогает сохранить целостность данных и гарантирует, что все записи будут включены в последующий анализ.

Очистка обеспечивает точность и надёжность итоговых результатов, что позволяет сделать более обоснованные выводы и рекомендации. Без тщательной очистки данных риск ошибок и искажений в анализе существенно возрастает, что может негативно сказаться на принятии решений.

3.3. Выполнение запросов для выявления закономерностей

После загрузки и очистки данных, следующим этапом является выполнение запросов, направленных на выявление закономерностей в дорожных происшествиях. Этот процесс включает анализ данных для понимания тенденций и факторов, влияющих на частоту и тяжесть аварий.

Первоначально было исследовано распределение происшествий по дням недели (Приложение В, Блок кода 1). Анализ показал, что количество происшествий варьируется в зависимости от дня недели. Например, пятница и четверг являются днями с наибольшим количеством аварий, а воскресенье с наименьшим. Такая информация важна для планирования профилактических мероприятий и распределения ресурсов городских служб (рисунок 3.4).

Рисунок 3.4 – Количество происшествий по дням недели

Далее было проведено исследование распределения аварий в зависимости от ограничений скорости на участках дорог (Приложение В, Блок кода 2). Анализ данных о скоростных ограничениях показал, что наиболее частые происшествия происходят на участках с ограничением скорости 60 и 40 миль/ч. Эти данные могут быть использованы для анализа эффективности текущих ограничений скорости и принятия решений о необходимости их пересмотра (рисунок 3.5).

Рисунок 3.5 – Количество происшествий по датам

Также был проведен анализ количества происшествий по датам (Приложение В, Блок кода 3). Это позволяет выявить возможные сезонные тенденции и аномальные пики в количестве аварий. Например, определённые даты могут показывать повышенное количество происшествий из-за праздничных дней, плохих погодных условий или других факторов (рисунок 3.6).

Рисунок 3.6 – Количество происшествий по датам

Все эти запросы и их результаты помогают выявить факторы, влияющие на аварийность, что в свою очередь позволяет разработать более эффективные меры по повышению безопасности на дорогах и изменению правил дорожного движения.

<<< < Предыдущая 1 2 3 45 / 75 6 7 > Следующая >>>

Соседние файлы в папке курсовой проект

#
04.12.2024766.75 Кб2data-analysis.ipynb
#
04.12.202469.44 Mб2Road Accident Data.csv
#
04.12.2024485.8 Кб7Курсовая работа.docx