2.3. Базовая статистика

Набор данных о дорожных происшествиях включает в себя 307,973 записи, каждая из которых содержит полную информацию о конкретном происшествии. Количество записей позволяет провести детальный анализ и выявить значимые тенденции.

Анализ данных по дням недели показывает, что наибольшее количество аварий происходит в пятницу (16.4%). Наименьшее количество аварий наблюдается в воскресенье (10.9%), что может быть связано с меньшей интенсивностью дорожного движения в этот день. Средняя частота аварий составляет около 422 происшествий в день.

Распределение аварий по времени суток демонстрирует, что пиковые часы аварий приходятся на промежуток между 15:00 и 18:00 и утренние часы с 7:00 до 9:00, что связано с утренними поездками на работу, когда человек еще не успел полностью проснуться, и вечерними поездками с работы, когда водитель, уже уставший, возвращается домой.

Анализ погодных условий показывает, что большинство аварий происходит на сухой дороге. Скорее всего этот показатель высок из-за того, что в США на 1 дождливый день приходится 5 дней с ясной погодой. Но Влажные или мокрые условия дороги также значительно влияют на количество аварий, что подтверждает необходимость учета погодных условий при планировании дорожного движения.

Типы транспортных средств, попадающих в аварии, варьируются от легковых автомобилей до грузовиков и мотоциклов, с преобладанием легковых автомобилей. Места происшествий распределены по всему городу, с высокой концентрацией на перекрестках и главных магистралях. Большинство аварий происходит в дневное время, когда видимость хорошая.

Состояние дорог в большинстве случаев удовлетворительное, однако наблюдаются случаи аварий из-за плохого состояния покрытия. Также важно отметить, что наибольшее количество аварий приводит к легким травмам, в то время как серьезные и смертельные исходы составляют меньший процент.

Вывод

В этой главе рассматривается база данных дорожно-транспортных происшествий. Она включает в себя столбцы, описывающие время, место, погодные условия, типы транспортных средств и другие параметры зафиксированные при оформлении ДТП. Python позволяет анализировать данные и выявлять из них закономерности, влияющие на аварии, по которым можно разрабатывать меры по их сокращению. Благодаря проанализированной информации можно оценить состояние безопасности на дорогах и найти причины появления происшествий. База данных содержит 307,973 записи, что позволяет проводить максимально точный анализ, минимизируя погрешности и аномалии в закономерностях, и выявлять тенденции для повышения безопасности на дорогах.

Глава 3. Выполнение задания

3.1. Загрузка первичных данных

Аналитический проект начинается с подготовки и анализа исходных данных. Для работы с данными дорожных происшествий используются инструменты, которые позволяют анализировать информацию. Основными помощниками в этом процессе являются библиотеки для работы с данными, такие как NumPy и pandas, а также инструменты для визуализации — matplotlib и seaborn (Приложение А, Блок кода 1).

Создание структуры для данных (DataFrame), позволяет удобно и эффективно работать с таблицей данных, содержащей все сведения о дорожных происшествиях. Загрузив данные в эту структуру, мы можем сразу приступить к их исследованию. Первым шагом становится ознакомление с содержанием файла. Показав первые несколько строк, мы убеждаемся, что данные были корректно загружены, а их структура соответствует ожиданиям.

Следующим этапом становится исследование общей информации о загруженных данных. Это включает количество записей и столбцов, типы данных каждого столбца и наличие ненулевых значений. Такой анализ важен для понимания структуры данных и выявления потенциальных проблем, таких как пропущенные значения или неправильные типы данных. Понимание структуры данных на раннем этапе позволяет планировать дальнейшие шаги по их обработке и анализу (рисунок 3.1).

Рисунок 3.1 – Информация о названиях столбцов и их типах

Затем проводится статистическое описание числовых данных. Это даёт представление о распределении значений в каждом столбце (Приложение А, Блок кода 2). Это включает вычисление среднего значения, стандартного отклонения, минимальных и максимальных значений, а также размаха квартилей. Данная информация показывает аномалии, выбросы и общую тенденцию в данных. Эти действия направлены на получение ясной картины о том, с какими данными предстоит работать. Глубокое понимание исходных данных является фундаментом для последующего анализа и принятия решений. Неправильная интерпретация на этом этапе могла бы привести к ошибочным выводам и неточным рекомендациям в дальнейшем (рисунок 3.2).

Первоначальный анализ данных помогает удостовериться в их корректности и заложить основу для дальнейшего детального исследования. Полученная информация необходима для планирования следующих шагов, включая очистку данных, их визуализацию и проведение статистического анализа. Этот процесс является неотъемлемой частью любой аналитической работы и обеспечивает высокое качество и точность итоговых результатов.

Рисунок 3.2 – Основные статистические характеристики для столбцов

<<< < Предыдущая 1 2 34 / 74 5 6 7 > Следующая >>>

Соседние файлы в папке курсовой проект

#
04.12.2024766.75 Кб2data-analysis.ipynb
#
04.12.202469.44 Mб2Road Accident Data.csv
#
04.12.2024485.8 Кб7Курсовая работа.docx