Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
еще примеры курсачей / курсач другой.docx
Скачиваний:
0
Добавлен:
15.07.2025
Размер:
627.43 Кб
Скачать

Глава 3

3.1. Импорт библиотек Python

Выполним импорт необходимых библиотек и зададим тему. (приложение: листинг 1)

Рисунок 1. Цветовая тема

Описание каждой использованной библиотеки для понимания причины выбора именно их [1-3]:

  • import numpy as np: NumPy используется для работы с массивами и выполнения математических операций.

  • import pandas as pd: Pandas используется для работы с табличными данными, предоставляя средства для их манипулирования и анализа.

  • import missingno as msno: Используется для визуализации пропущенных данных в наборах данных

  • import seaborn as sns: Seaborn используется для создания статистических графиков, обеспечивая высокоуровневые визуализации.

  • import matplotlib.pyplot as plt: Matplotlib используется для создания различных типов графиков и диаграмм.

3.2. Получение информации о наборе

Выполним вывод количества записей и первых пяти строк. Выделим цветом ячейки с ненулевым значением для визуального улучшения. (приложение: листинг 2)

Рисунок 2. Вывод количества записей

Рисунок 3. Вывод первых пяти строк датасета

Выполним вывод информацию о датасете, включая количество строк и столбцов, типы данных в каждом столбце, количество ненулевых значений и объем используемой памяти:

water_df.info()

Рисунок 4. Вывод общей информации о параметрах

Выведем минимальное, среднее и максимальное значения характеристик. Это полезно для визуализации данных, позволяя легче видеть различия между значениями в каждой строке (минимальным, медианным и максимальным) с помощью градиентного цвета:

water_df.describe().loc[['min','50%','max']].T.style.background_gradient(axis=1)

Рисунок 5. Вывод значений параметров

3.3. Визуализацию данных

Выполним вывод количества пропусков в виде столбчатой диаграммы.

msno.bar(water_df,figsize=(15, 5),fontsize=10,color = '#459E97');

Рисунок 6. Вывод количества пропусков

С помощью библиотек Matplotlib создадим круговую диаграмму, чтобы визуализировать данные о потенциальной пригодности для потребления воды. (приложение: листинг 3)

Рисунок 7. Пригодность воды к употреблению

С помощью библиотек Matplotlib и Seaborn построим 9 графиков для каждого параметра, чтобы увидеть какое значение признаков имеет питьевая и не питьевая вода. (приложение: листинг 4)

Рисунок 8. Зависимость характеристик

С помощью библиотеки Matplotlib и Seaborn создадим корреляционную матрицу, которая покажет коэффициент корреляции между различными качественными показателями воды:

plt.figure(figsize=(12, 8))

sns.heatmap(water_df.corr(), annot=True)

plt.xticks(rotation=45);

Рисунок 9. Корреляционная матрица

Основываясь на полученную корреляционную матрицу, можно сказать следующее:

1. Если коэффициент корреляции между двумя переменными близок к 1, это указывает на положительную линейную связь между ними. То есть, увеличение одной переменной сопровождается увеличением другой переменной.

2. Если коэффициент корреляции близок к -1, это указывает на отрицательную линейную связь между переменными. Увеличение одной переменной сопровождается уменьшением другой переменной.

3. Коэффициент корреляции близок к 0 указывает на отсутствие линейной связи между переменными.

Исходя из тепловой карты корреляций, можно определить, какие переменные имеют наибольшую взаимосвязь между собой. Слабые или близкие к нулю коэффициенты корреляции могут показывать, что данные переменные скорее всего независимы друг от друга.

Вывод

В результате проведенного анализа мы получили различные данные о состоянии водных ресурсов в изучаемой местности. Предварительная обработка данных, проведенная с применением библиотеки Pandas, позволила подготовить информацию для более глубокого анализа и моделирования, что существенно повысило достоверность и полезность полученных результатов. Визуализация результатов с помощью соответствующих инструментов, таких как Matplotlib и Seaborn, предоставляет наглядное представление о текущем состоянии водных ресурсов. Полученные в ходе исследования выводы свидетельствуют о важности анализа данных для разработки и реализации эффективных мер по обеспечению доступности и безопасности воды для населения и окружающей среды. Важно отметить, что моделирование данных о качестве воды может стать ценным инструментом для принятия обоснованных решений в области охраны окружающей среды, здравоохранения и устойчивого развития. Таким образом, исследование демонстрирует эффективность использования Python и его библиотек для комплексного анализа данных.

Соседние файлы в папке еще примеры курсачей