- •Глава 1. Анализ предметной области 6
- •Глава 2. Описание набора данных 9
- •Глава 3. Выполнение задания 13
- •Введение
- •Глава 1. Анализ предметной области
- •1.1. Применение языка Python для анализа данных
- •1.2. Синтаксис языка Python
- •1.3. Библиотеки и инструменты для анализа и визуализации данных
- •Глава 2. Описание набора данных
- •2.1. Общая информация о наборе данных
- •2.2. Описание столбцов набора данных
- •2.3. Базовая статистика
- •Глава 3. Выполнение задания
- •3.1. Загрузка первичных данных
- •3.2. Очистка данных
- •3.3. Выполнение запросов для выявления закономерностей
- •3.4. Визуализация данных
- •3.5 Корреляционный и регрессионный анализ
- •Приложение
3.4. Визуализация данных
После выполнения запросов и получения числовых результатов создадим визуализацию данных (Приложение Г). Визуализация играет ключевую роль в анализе, так как позволяет наглядно представить результаты и выявить скрытые закономерности.
Для начала был создан график, отображающий распределение дорожных происшествий в зависимости от состояния дорожного покрытия с учетом городской или сельской местности. Использование библиотек matplotlib и seaborn позволяет создавать информативные графики. На них хорошо видно, как различные состояния дорожного покрытия влияют на количество происшествий в городских и сельских районах. Благодаря анализу можно увидеть, что хорошая погода благоприятно влияет на число аварий и в сельской местности их значительно меньше, чем в городе, поскольку в городе меньше открытых пространств, следовательно в ДТП погода имеет меньшее влияние. Что подтверждают данные по влажному покрытию дороги, где число аварий в городе выравнивается с числом сельских ДТП (рисунок 3.7).
Рисунок 3.7 – Распределение дорожных происшествий в зависимости от состояния дорожного покрытия с учетом городской или сельской местности
Круговая диаграмма показывает распределение аварий по дням недели. Из диаграммы видно, что определенные дни недели характеризуются более высоким числом происшествий. Например, количество аварий заметно возрастает в конце недели, что может быть связано с повышенной активностью водителей. Такой анализ помогает понять, когда необходимы усиленные меры контроля и профилактики дорожных происшествий (рисунок 3.8).
Рисунок 3.8 – Распределение аварий по дням недели
Линейная диаграмма отображает процент происшествий по датам в течение определенного периода. На графике можно наблюдать колебания и тренды в количестве аварий. Например, видно, что в некоторые периоды происходит резкий рост числа происшествий, что может быть связано с сезонными изменениями или особыми событиями. Анализ таких временных данных позволяет предвидеть периоды повышенной аварийности и готовиться к ним заблаговременно (рисунок 3.9).
Визуализация данных не только облегчает их восприятие, но и помогает выявить аномалии и тенденции, которые сложно заметить при анализе только числовых данных. Графики и диаграммы делают данные более доступными для широкой аудитории, включая лиц, принимающих решения, и других заинтересованных сторон по улучшению безопасного движения на дорогах.
Рисунок 3.9 – Процент происшествий по датам в течение определенного периода
3.5 Корреляционный и регрессионный анализ
Корреляционный и регрессионный анализ помогают понять взаимосвязей между различными переменными в наборе данных о дорожных происшествиях. Эти методы позволяют выявить степень связи между переменными и понять, как одна переменная влияет на другую.
Корреляционный анализ начинается с вычисления корреляционной матрицы для числовых столбцов. На основе этой матрицы можно определить, какие переменные связаны между собой и насколько сильна эта связь. На тепловой карте, созданной для визуализации корреляционной матрицы, видно, что некоторые переменные имеют более сильные корреляции, чем другие (рисунок 3.10).
Рисунок 3.10 – Матрица корреляции
Регрессионный анализ позволяет углубиться в понимание влияния одной переменной на другую. На диаграмме рассеяния, дополненной линией регрессии, видно, как количество транспортных средств связано с числом погибших в аварии. Линия регрессии показывает тренд, показывающий, что увеличение числа транспортных средств связано с ростом числа погибших (рисунок 3.11). Выявленные корреляции и регрессионные зависимости помогают лучше понять данные и сделать обоснованные выводы, которые могут быть использованы для улучшения дорожного движения.
Рисунок 3.11 – Зависимость числа аварий со смертельным исходом от числа машин
Вывод
В данной главе были рассмотрены основные этапы обработки и визуализации данных, связанных с ДТП. Набор данных включает различные столбцы, которые содержат информацию о местах происшествий, различных деталях события, об их расположении и временных характеристиках. Во время анализа БД, большое внимание уделялось корректному отображению информации и статистическому описанию столбцов. На первом этапе была проведена проверка загруженных данных на наличие пустых значений и ненужной информации для последующего анализа. В процессе были выявлены некорректные данные, которые в последствие были изменены или удалены, дабы избежать ошибок в работе кода, заполнены пропущенные значения и удалены незначимые столбцы. Далее выполнены запросы для выявления закономерностей, таких как распределение происшествий по дням недели, датам и ограничению скорости. Дальнейшая визуализация данных позволила наглядно представить результаты анализа, выявить скрытые тенденции и аномалии.
Заключительный корреляционный и регрессионный анализ помог показать взаимосвязи между переменными и понять влияние различных факторов на частоту и тяжесть аварий, что способствует принятию правильных решений для улучшения безопасности дорожного движения.
Заключение
В процессе анализа данных о дорожных происшествиях была выполнена значительная работа по сбору, обработке и анализу информации. Основное внимание уделялось выявлению ключевых факторов, влияющих на частоту и тяжесть аварий, таких как: день недели, погодные условия состояние дорожного покрытия. Для наглядного представления результатов анализа были использованы различные графики и диаграммы, включая гистограммы, линейные графики и тепловые карты.
Был проведен корреляционный и регрессионный анализ, который предоставил понимание взаимосвязей между различными переменными. Эти методы позволили определить, какие факторы имеют наибольшее влияние на аварийность и как эти факторы взаимодействуют между собой.
В процессе работы я значительно улучшил свои навыки. Научился эффективно работать с большими объемами данных, включая их очистку, фильтрацию и обработку. Освоил использование различных библиотек для анализа данных, как Pandas, NumPy, Matplotlib и Seaborn. Приобрел навыки создания наглядных и информативных визуализаций, которые помогают лучше понять данные и выявить скрытые закономерности.
Результаты проведенного анализа могут быть использованы для разработки стратегий по снижению аварийности и оптимизации дорожной инфраструктуры. Например, полученные данные могут помочь в улучшении дорожной инфраструктуры, повышении безопасности на дорогах и информировании водителей актуальной информацией о состоянии дорог и возможных опасностях
Этот проект продемонстрировал, как детальный анализ данных может существенно повысить безопасность и комфорт водителей на дорогах. Анализ дорожных происшествий с использованием методов машинного обучения и статистики является важным шагом к созданию эффективной и безопасной транспортной системы.
Список использованных источников и литературы
1. Google Trends. HTML. (https://trends.google.ru/trends/explore?geo=RU&q=%2Fm%2F05z1_,%2Fm%2F0jgqg,%2Fm%2F07sbkfb,%2Fm%2F02p97,HTML&hl=ru). (Дата обращения 25.05.2024)
2. Pandas documentation. DataFrame. (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html). (Дата обращения 25.05.2024)
3. NumPy documentation. Quickstart tutorial. (https://NumPy.org/doc/stable/user/quickstart.html). (Дата обращения 25.05.2024)
4. Matplotlib documentation. Quick Start Guide. (https://matplotlib.org/stable/users/explain/quick_start.html). (Дата обращения 25.05.2024)
5. Seaborn documentation. Introduction and Tutorial. (https://seaborn.pydata.org/tutorial/introduction.html). (Дата обращения 25.05.2024)
