Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
курсовой проект / Курсовая работа.docx
Скачиваний:
7
Добавлен:
04.12.2024
Размер:
485.8 Кб
Скачать

3.4. Визуализация данных

После выполнения запросов и получения числовых результатов создадим визуализацию данных (Приложение Г). Визуализация играет ключевую роль в анализе, так как позволяет наглядно представить результаты и выявить скрытые закономерности.

Для начала был создан график, отображающий распределение дорожных происшествий в зависимости от состояния дорожного покрытия с учетом городской или сельской местности. Использование библиотек matplotlib и seaborn позволяет создавать информативные графики. На них хорошо видно, как различные состояния дорожного покрытия влияют на количество происшествий в городских и сельских районах. Благодаря анализу можно увидеть, что хорошая погода благоприятно влияет на число аварий и в сельской местности их значительно меньше, чем в городе, поскольку в городе меньше открытых пространств, следовательно в ДТП погода имеет меньшее влияние. Что подтверждают данные по влажному покрытию дороги, где число аварий в городе выравнивается с числом сельских ДТП (рисунок 3.7).

Рисунок 3.7 – Распределение дорожных происшествий в зависимости от состояния дорожного покрытия с учетом городской или сельской местности

Круговая диаграмма показывает распределение аварий по дням недели. Из диаграммы видно, что определенные дни недели характеризуются более высоким числом происшествий. Например, количество аварий заметно возрастает в конце недели, что может быть связано с повышенной активностью водителей. Такой анализ помогает понять, когда необходимы усиленные меры контроля и профилактики дорожных происшествий (рисунок 3.8).

Рисунок 3.8 – Распределение аварий по дням недели

Линейная диаграмма отображает процент происшествий по датам в течение определенного периода. На графике можно наблюдать колебания и тренды в количестве аварий. Например, видно, что в некоторые периоды происходит резкий рост числа происшествий, что может быть связано с сезонными изменениями или особыми событиями. Анализ таких временных данных позволяет предвидеть периоды повышенной аварийности и готовиться к ним заблаговременно (рисунок 3.9).

Визуализация данных не только облегчает их восприятие, но и помогает выявить аномалии и тенденции, которые сложно заметить при анализе только числовых данных. Графики и диаграммы делают данные более доступными для широкой аудитории, включая лиц, принимающих решения, и других заинтересованных сторон по улучшению безопасного движения на дорогах.

Рисунок 3.9 – Процент происшествий по датам в течение определенного периода

3.5 Корреляционный и регрессионный анализ

Корреляционный и регрессионный анализ помогают понять взаимосвязей между различными переменными в наборе данных о дорожных происшествиях. Эти методы позволяют выявить степень связи между переменными и понять, как одна переменная влияет на другую.

Корреляционный анализ начинается с вычисления корреляционной матрицы для числовых столбцов. На основе этой матрицы можно определить, какие переменные связаны между собой и насколько сильна эта связь. На тепловой карте, созданной для визуализации корреляционной матрицы, видно, что некоторые переменные имеют более сильные корреляции, чем другие (рисунок 3.10).

Рисунок 3.10 – Матрица корреляции

Регрессионный анализ позволяет углубиться в понимание влияния одной переменной на другую. На диаграмме рассеяния, дополненной линией регрессии, видно, как количество транспортных средств связано с числом погибших в аварии. Линия регрессии показывает тренд, показывающий, что увеличение числа транспортных средств связано с ростом числа погибших (рисунок 3.11). Выявленные корреляции и регрессионные зависимости помогают лучше понять данные и сделать обоснованные выводы, которые могут быть использованы для улучшения дорожного движения.

Рисунок 3.11 – Зависимость числа аварий со смертельным исходом от числа машин

Вывод

В данной главе были рассмотрены основные этапы обработки и визуализации данных, связанных с ДТП. Набор данных включает различные столбцы, которые содержат информацию о местах происшествий, различных деталях события, об их расположении и временных характеристиках. Во время анализа БД, большое внимание уделялось корректному отображению информации и статистическому описанию столбцов. На первом этапе была проведена проверка загруженных данных на наличие пустых значений и ненужной информации для последующего анализа. В процессе были выявлены некорректные данные, которые в последствие были изменены или удалены, дабы избежать ошибок в работе кода, заполнены пропущенные значения и удалены незначимые столбцы. Далее выполнены запросы для выявления закономерностей, таких как распределение происшествий по дням недели, датам и ограничению скорости. Дальнейшая визуализация данных позволила наглядно представить результаты анализа, выявить скрытые тенденции и аномалии.

Заключительный корреляционный и регрессионный анализ помог показать взаимосвязи между переменными и понять влияние различных факторов на частоту и тяжесть аварий, что способствует принятию правильных решений для улучшения безопасности дорожного движения.

Заключение

В процессе анализа данных о дорожных происшествиях была выполнена значительная работа по сбору, обработке и анализу информации. Основное внимание уделялось выявлению ключевых факторов, влияющих на частоту и тяжесть аварий, таких как: день недели, погодные условия состояние дорожного покрытия. Для наглядного представления результатов анализа были использованы различные графики и диаграммы, включая гистограммы, линейные графики и тепловые карты.

Был проведен корреляционный и регрессионный анализ, который предоставил понимание взаимосвязей между различными переменными. Эти методы позволили определить, какие факторы имеют наибольшее влияние на аварийность и как эти факторы взаимодействуют между собой.

В процессе работы я значительно улучшил свои навыки. Научился эффективно работать с большими объемами данных, включая их очистку, фильтрацию и обработку. Освоил использование различных библиотек для анализа данных, как Pandas, NumPy, Matplotlib и Seaborn. Приобрел навыки создания наглядных и информативных визуализаций, которые помогают лучше понять данные и выявить скрытые закономерности.

Результаты проведенного анализа могут быть использованы для разработки стратегий по снижению аварийности и оптимизации дорожной инфраструктуры. Например, полученные данные могут помочь в улучшении дорожной инфраструктуры, повышении безопасности на дорогах и информировании водителей актуальной информацией о состоянии дорог и возможных опасностях

Этот проект продемонстрировал, как детальный анализ данных может существенно повысить безопасность и комфорт водителей на дорогах. Анализ дорожных происшествий с использованием методов машинного обучения и статистики является важным шагом к созданию эффективной и безопасной транспортной системы.

Список использованных источников и литературы

1. Google Trends. HTML. (https://trends.google.ru/trends/explore?geo=RU&q=%2Fm%2F05z1_,%2Fm%2F0jgqg,%2Fm%2F07sbkfb,%2Fm%2F02p97,HTML&hl=ru). (Дата обращения 25.05.2024)

2. Pandas documentation. DataFrame. (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html). (Дата обращения 25.05.2024)

3. NumPy documentation. Quickstart tutorial. (https://NumPy.org/doc/stable/user/quickstart.html). (Дата обращения 25.05.2024)

4. Matplotlib documentation. Quick Start Guide. (https://matplotlib.org/stable/users/explain/quick_start.html). (Дата обращения 25.05.2024)

5. Seaborn documentation. Introduction and Tutorial. (https://seaborn.pydata.org/tutorial/introduction.html). (Дата обращения 25.05.2024)

Соседние файлы в папке курсовой проект