- •Введение
- •1. Предметная область и актуальность анализа данных
- •1.1. Предметная область
- •1.2 Использование Python для анализа данных
- •1.3 Актуальность выбора языка программирования
- •2. Информация о базе данных
- •2.1 Информация о содержимом в базе данных
- •3. Работа с кодом
- •3.1. Загрузка первичных данных
- •3.2. Запросы к базе данных
- •3.3. Визуализация данных
- •3.4. График корреляции
- •Заключение
- •Список используемой литературы
- •Приложение
1.2 Использование Python для анализа данных
Python предоставляет множество библиотек, специально разработанных для работы с данными. Наиболее популярными из них являются:
Pandas: Основной инструмент для работы с табличными данными, позволяющий эффективно загружать, обрабатывать и анализировать данные[2];
NumPy: Библиотека для работы с массивами и матрицами чисел, предоставляющая математические функции высокого уровня[5];
Matplotlib и Plotly: Инструменты для создания статических и интерактивных визуализаций данных, что помогает в наглядном представлении результатов анализа[6].
1.3 Актуальность выбора языка программирования
Python известен своей простотой и читаемостью, что делает его идеальным языком для начинающих и опытных программистов. Его синтаксис интуитивно понятен, что позволяет быстро разрабатывать и тестировать код, а также легко поддерживать и обновлять его в дальнейшем. Также, Python интерпретируемый язык программирования – код на нем выполняется построчно, в режиме реального времени. Это свойство позволяет быстро исправлять и проверять код без необходимости компиляции.[1]
Вывод
В заключение данной главе была рассмотрена актуальность анализа данных выбранной темы, а также причина выбора языка программирования Python. Были продемонстрированы основные библиотеки, которые были задействованы во время реализации программного кода.
2. Информация о базе данных
База данных содержит в себе информации различных песен, которые находятся в топе рейтинга Spotify, такую как длительность, жанр, исполнитель, рейтинг и т.д. Анализ данной таблицы поможет рассмотреть, как меняется актуальность разных жанров, а также других аспектов в музыке.
2.1 Информация о содержимом в базе данных
Artist – исполнитель, выпустивший песню;
Song – название песни;
duration_ms – продолжительность песни;
explicit – наличие нецензурной лексики в песне;
year – год выпуска песни;
popularity – рейтинг песни;
danceability – коэффициент танцевальности;
energy – коэффициент энергичности;
key – тональность песни;
loudness – громкость песни;
mode – Лад песни;
speechiness – коэффициент заполенности песни словами;
acousticness – коэффициент акустичности песни;
instrumentalness – коэффициент инструментальности в песне;
liveness – коэффициент живости в песне;
valence – коэффициент позитивности передаваемой в треке;
tempo – темп песни;
genre – жанр, в котором была исполнена песня.
Информация о количестве записей
Общее количество записей в предоставленном наборе данных составляет 2000.
Примерное содержание таблицы отображено в нескольких примерах на рисунке 1. По данной таблице видно, что она содержит в себе 18 столбцов.
Рисунок 1. Первые 5 записей из базы данных
Важной частью анализа данных является определение типа данных, хранящихся в базе данных. Для получения подобной информации используется команда info().[6] Выполнение этого кода выдаст следующую информацию по таблице:
Рисунок 2. Тип данных в таблице
По рисунку 2 можно сделать вывод, что в 5 столбцах содержится численные значения, в 1 true/false, в 3 текстовое значение, в 9 содержится дробные значения.
Вывод
В данной главе была подробно рассмотрена информация, которая хранится в базе данных, количество записей, а также категории, на которые разбиты хранящиеся данные в данной таблице.
Анализируя данные, можно сделать вывод, что набор данных, рассмотренный в ходе выполнения работы содержит большое количество параметров, которые помогут лучше узнать информацию об актуальность всех аспектов. Анализ данных из этой главы играет ключевую роль в рассмотрение изменений тенденции музыки.
