
Боженко ЛР / анализ данных2
.docxГУАП
КАФЕДРА № 41
ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ
ПРЕПОДАВАТЕЛЬ
старший преподаватель |
|
|
|
В.В. Боженко |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №2 |
ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ |
по курсу: ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ |
|
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ ГР. № |
|
|
|
|
|
|
|
|
подпись, дата |
|
инициалы, фамилия |
Санкт-Петербург 2023
Цели работы: изучение связи между признаками двумерного набора данных, визуализация данных.
Ход работы
Вариант 15
Была проведена предварительная обработка данных
Была создана матрица диаграмм рассеяния по разным столбцам: Home, Intent, Status, Default, Cred_length (Рисунок 1 - 5).
Рисунок 1 – Диаграмма рассеяния по Статусу домовладения
Рисунок 2 – Диаграмма рассеяния по Цели кредита
Рисунок 3 – Диаграмма рассеяния по Статусу одобрения заявки
Рисунок 4 – Диаграмма рассеяния по Дефолту
Рисунок 5 – Диаграмма рассеяния по Длительности кредита
По этим диаграммам видно, что большая часть клиентов арендует жильё, самая популярная причина для кредита – образование, большая часть заявок на кредит была одобрена, большая часть клиентов не допускали дефолта по кредиту в прошлом, в большинстве случаев срок выплаты кредита составляет 3 года.
Создана таблица с корреляцией значений в столбцах (Рисунок 6). Выявлена положительная корреляция возраста и дохода, дохода и суммы кредита, процентная ставка не зависит от дохода.
Рисунок 6 – Корреляция
Построена тепловая карта корреляции (Рисунок 7).
Рисунок 7 – Тепловая карта корреляции
Задание 1: Использовать seaborn. По группировке - цель кредита (intent) по количеству статуса домовладения (home).
Была создана группировка (Рисунок 8).
Рисунок 8 – Группировка
Создана диаграмма с помощью метода barplot (Рисунок 9), первым указывается источник данных для диаграммы, далее значения для осей x и y, в hue задаются данные по которым будут окрашены столбцы. Используется set_xticklabels для поворота надписей в избежание пересечений. По графику видно, что больше всего клиентов имеют статус домовладения Аренда.
Рисунок 9 – Создание диаграммы
Задание 2: Использовать pandas и plot. Отфильтровать возраст - до 100. По сводной таблице (pivot_table) - отобразить средний доход (income) по возрасту. Оставить только маркеры в виде ★ коричневого цвета размером 16.
Фильтровать возраст не требуется, так как значений больше 100 в этом столбце не имеется. Была создана сводная таблица среднего дохода по возрасту (Рисунок 10), к ней применён метод plot для создания графика. По графику видно, вместе с возрастом увеличивается и доход клиентов.
Рисунок 10 – Создание графика
Задание 3: Использовать matplotlib. Построить круговую диаграмму, которая отображает процент по каждой цели кредита (intent).
Посчитано количество записей для каждой цели кредита (Рисунок 11).
Рисунок 11 – Кол-во записей для каждой цели кредита
Создана фигура размером 26 на 8, добавлена круговая диаграмма с данными из intent_count, с помощью autopct автоматически посчитаны проценты (Рисунок 12).
Рисунок 12 – Круговая диаграмма
Ссылка на Google Colab:
Вывод:
В ходе выполнения лабораторной работы были освоены навыки визуализации данных. В результате визуализации выяснилось, что самой частой целью кредита является образование, большинство клиентов арендует жильё, с увеличением возраста клиентов увеличивается и их средний доход, большинство клиентов не допускали ранее дефолта по кредиту.