- •Глава 1 6
- •Глава 2 8
- •Глава 3 11
- •Введение
- •Глава 1
- •1.1. Предметная область и актуальность анализа данных
- •1.2. Использование Python для анализа данных
- •1.3. Синтаксис Python для анализа данных
- •Глава 2
- •2.1. Описание набора данных
- •2.2. Краткие сведения о содержании столбцов
- •2.3. Информация о количестве записей
- •Глава 3
- •3.1. Импорт библиотек Python
- •3.2. Получение информации о наборе
- •3.3. Визуализацию данных
- •Заключение
- •Список использованных источников
- •Приложение
Глава 3
3.1. Импорт библиотек Python
Выполним импорт необходимых библиотек и зададим тему. (приложение: листинг 1)
Рисунок 1. Цветовая тема
Описание каждой использованной библиотеки для понимания причины выбора именно их [1-3]:
import numpy as np: NumPy используется для работы с массивами и выполнения математических операций.
import pandas as pd: Pandas используется для работы с табличными данными, предоставляя средства для их манипулирования и анализа.
import missingno as msno: Используется для визуализации пропущенных данных в наборах данных
import seaborn as sns: Seaborn используется для создания статистических графиков, обеспечивая высокоуровневые визуализации.
import matplotlib.pyplot as plt: Matplotlib используется для создания различных типов графиков и диаграмм.
3.2. Получение информации о наборе
Выполним вывод количества записей и первых пяти строк. Выделим цветом ячейки с ненулевым значением для визуального улучшения. (приложение: листинг 2)
Рисунок 2. Вывод количества записей
Рисунок 3. Вывод первых пяти строк датасета
Выполним вывод информацию о датасете, включая количество строк и столбцов, типы данных в каждом столбце, количество ненулевых значений и объем используемой памяти:
water_df.info()
Рисунок 4. Вывод общей информации о параметрах
Выведем минимальное, среднее и максимальное значения характеристик. Это полезно для визуализации данных, позволяя легче видеть различия между значениями в каждой строке (минимальным, медианным и максимальным) с помощью градиентного цвета:
water_df.describe().loc[['min','50%','max']].T.style.background_gradient(axis=1)
Рисунок 5. Вывод значений параметров
3.3. Визуализацию данных
Выполним вывод количества пропусков в виде столбчатой диаграммы.
msno.bar(water_df,figsize=(15, 5),fontsize=10,color = '#459E97');
Рисунок 6. Вывод количества пропусков
С помощью библиотек Matplotlib создадим круговую диаграмму, чтобы визуализировать данные о потенциальной пригодности для потребления воды. (приложение: листинг 3)
Рисунок 7. Пригодность воды к употреблению
С помощью библиотек Matplotlib и Seaborn построим 9 графиков для каждого параметра, чтобы увидеть какое значение признаков имеет питьевая и не питьевая вода. (приложение: листинг 4)
Рисунок 8. Зависимость характеристик
С помощью библиотеки Matplotlib и Seaborn создадим корреляционную матрицу, которая покажет коэффициент корреляции между различными качественными показателями воды:
plt.figure(figsize=(12, 8))
sns.heatmap(water_df.corr(), annot=True)
plt.xticks(rotation=45);
Рисунок 9. Корреляционная матрица
Основываясь на полученную корреляционную матрицу, можно сказать следующее:
1. Если коэффициент корреляции между двумя переменными близок к 1, это указывает на положительную линейную связь между ними. То есть, увеличение одной переменной сопровождается увеличением другой переменной.
2. Если коэффициент корреляции близок к -1, это указывает на отрицательную линейную связь между переменными. Увеличение одной переменной сопровождается уменьшением другой переменной.
3. Коэффициент корреляции близок к 0 указывает на отсутствие линейной связи между переменными.
Исходя из тепловой карты корреляций, можно определить, какие переменные имеют наибольшую взаимосвязь между собой. Слабые или близкие к нулю коэффициенты корреляции могут показывать, что данные переменные скорее всего независимы друг от друга.
Вывод
В результате проведенного анализа мы получили различные данные о состоянии водных ресурсов в изучаемой местности. Предварительная обработка данных, проведенная с применением библиотеки Pandas, позволила подготовить информацию для более глубокого анализа и моделирования, что существенно повысило достоверность и полезность полученных результатов. Визуализация результатов с помощью соответствующих инструментов, таких как Matplotlib и Seaborn, предоставляет наглядное представление о текущем состоянии водных ресурсов. Полученные в ходе исследования выводы свидетельствуют о важности анализа данных для разработки и реализации эффективных мер по обеспечению доступности и безопасности воды для населения и окружающей среды. Важно отметить, что моделирование данных о качестве воды может стать ценным инструментом для принятия обоснованных решений в области охраны окружающей среды, здравоохранения и устойчивого развития. Таким образом, исследование демонстрирует эффективность использования Python и его библиотек для комплексного анализа данных.
