
- •Глава 1. Анализ предметной области 6
- •Глава 2. Описание набора данных 9
- •Глава 3. Выполнение задания 13
- •Введение
- •Глава 1. Анализ предметной области
- •1.1. Применение языка Python для анализа данных
- •1.2. Синтаксис языка Python
- •1.3. Библиотеки и инструменты для анализа и визуализации данных
- •Глава 2. Описание набора данных
- •2.1. Общая информация о наборе данных
- •2.2. Описание столбцов набора данных
- •2.3. Базовая статистика
- •Глава 3. Выполнение задания
- •3.1. Загрузка первичных данных
- •3.2. Очистка данных
- •3.3. Выполнение запросов для выявления закономерностей
- •3.4. Визуализация данных
- •3.5 Корреляционный и регрессионный анализ
- •Приложение
2.3. Базовая статистика
Набор данных о дорожных происшествиях включает в себя 307,973 записи, каждая из которых содержит полную информацию о конкретном происшествии. Количество записей позволяет провести детальный анализ и выявить значимые тенденции.
Анализ данных по дням недели показывает, что наибольшее количество аварий происходит в пятницу (16.4%). Наименьшее количество аварий наблюдается в воскресенье (10.9%), что может быть связано с меньшей интенсивностью дорожного движения в этот день. Средняя частота аварий составляет около 422 происшествий в день.
Распределение аварий по времени суток демонстрирует, что пиковые часы аварий приходятся на промежуток между 15:00 и 18:00 и утренние часы с 7:00 до 9:00, что связано с утренними поездками на работу, когда человек еще не успел полностью проснуться, и вечерними поездками с работы, когда водитель, уже уставший, возвращается домой.
Анализ погодных условий показывает, что большинство аварий происходит на сухой дороге. Скорее всего этот показатель высок из-за того, что в США на 1 дождливый день приходится 5 дней с ясной погодой. Но Влажные или мокрые условия дороги также значительно влияют на количество аварий, что подтверждает необходимость учета погодных условий при планировании дорожного движения.
Типы транспортных средств, попадающих в аварии, варьируются от легковых автомобилей до грузовиков и мотоциклов, с преобладанием легковых автомобилей. Места происшествий распределены по всему городу, с высокой концентрацией на перекрестках и главных магистралях. Большинство аварий происходит в дневное время, когда видимость хорошая.
Состояние дорог в большинстве случаев удовлетворительное, однако наблюдаются случаи аварий из-за плохого состояния покрытия. Также важно отметить, что наибольшее количество аварий приводит к легким травмам, в то время как серьезные и смертельные исходы составляют меньший процент.
Вывод
В этой главе рассматривается база данных дорожно-транспортных происшествий. Она включает в себя столбцы, описывающие время, место, погодные условия, типы транспортных средств и другие параметры зафиксированные при оформлении ДТП. Python позволяет анализировать данные и выявлять из них закономерности, влияющие на аварии, по которым можно разрабатывать меры по их сокращению. Благодаря проанализированной информации можно оценить состояние безопасности на дорогах и найти причины появления происшествий. База данных содержит 307,973 записи, что позволяет проводить максимально точный анализ, минимизируя погрешности и аномалии в закономерностях, и выявлять тенденции для повышения безопасности на дорогах.
Глава 3. Выполнение задания
3.1. Загрузка первичных данных
Аналитический проект начинается с подготовки и анализа исходных данных. Для работы с данными дорожных происшествий используются инструменты, которые позволяют анализировать информацию. Основными помощниками в этом процессе являются библиотеки для работы с данными, такие как NumPy и pandas, а также инструменты для визуализации — matplotlib и seaborn (Приложение А, Блок кода 1).
Создание структуры для данных (DataFrame), позволяет удобно и эффективно работать с таблицей данных, содержащей все сведения о дорожных происшествиях. Загрузив данные в эту структуру, мы можем сразу приступить к их исследованию. Первым шагом становится ознакомление с содержанием файла. Показав первые несколько строк, мы убеждаемся, что данные были корректно загружены, а их структура соответствует ожиданиям.
Следующим этапом становится исследование общей информации о загруженных данных. Это включает количество записей и столбцов, типы данных каждого столбца и наличие ненулевых значений. Такой анализ важен для понимания структуры данных и выявления потенциальных проблем, таких как пропущенные значения или неправильные типы данных. Понимание структуры данных на раннем этапе позволяет планировать дальнейшие шаги по их обработке и анализу (рисунок 3.1).
Рисунок 3.1 – Информация о названиях столбцов и их типах
Затем проводится статистическое описание числовых данных. Это даёт представление о распределении значений в каждом столбце (Приложение А, Блок кода 2). Это включает вычисление среднего значения, стандартного отклонения, минимальных и максимальных значений, а также размаха квартилей. Данная информация показывает аномалии, выбросы и общую тенденцию в данных. Эти действия направлены на получение ясной картины о том, с какими данными предстоит работать. Глубокое понимание исходных данных является фундаментом для последующего анализа и принятия решений. Неправильная интерпретация на этом этапе могла бы привести к ошибочным выводам и неточным рекомендациям в дальнейшем (рисунок 3.2).
Первоначальный анализ данных помогает удостовериться в их корректности и заложить основу для дальнейшего детального исследования. Полученная информация необходима для планирования следующих шагов, включая очистку данных, их визуализацию и проведение статистического анализа. Этот процесс является неотъемлемой частью любой аналитической работы и обеспечивает высокое качество и точность итоговых результатов.
Рисунок 3.2 – Основные статистические характеристики для столбцов