Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Боженко ЛР / анализ данных2

.docx
Скачиваний:
4
Добавлен:
03.06.2024
Размер:
2.67 Mб
Скачать

ГУАП

КАФЕДРА № 41

ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

старший преподаватель

В.В. Боженко

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №2

ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ

по курсу: ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ ГР. №

подпись, дата

инициалы, фамилия

Санкт-Петербург 2023

Цели работы: изучение связи между признаками двумерного набора данных, визуализация данных.

Ход работы

Вариант 15

Была проведена предварительная обработка данных

Была создана матрица диаграмм рассеяния по разным столбцам: Home, Intent, Status, Default, Cred_length (Рисунок 1 - 5).

Рисунок 1 – Диаграмма рассеяния по Статусу домовладения

Рисунок 2 – Диаграмма рассеяния по Цели кредита

Рисунок 3 – Диаграмма рассеяния по Статусу одобрения заявки

Рисунок 4 – Диаграмма рассеяния по Дефолту

Рисунок 5 – Диаграмма рассеяния по Длительности кредита

По этим диаграммам видно, что большая часть клиентов арендует жильё, самая популярная причина для кредита – образование, большая часть заявок на кредит была одобрена, большая часть клиентов не допускали дефолта по кредиту в прошлом, в большинстве случаев срок выплаты кредита составляет 3 года.

Создана таблица с корреляцией значений в столбцах (Рисунок 6). Выявлена положительная корреляция возраста и дохода, дохода и суммы кредита, процентная ставка не зависит от дохода.

Рисунок 6 – Корреляция

Построена тепловая карта корреляции (Рисунок 7).

Рисунок 7 – Тепловая карта корреляции

Задание 1: Использовать seaborn. По группировке - цель кредита (intent) по количеству статуса домовладения (home).

Была создана группировка (Рисунок 8).

Рисунок 8 – Группировка

Создана диаграмма с помощью метода barplot (Рисунок 9), первым указывается источник данных для диаграммы, далее значения для осей x и y, в hue задаются данные по которым будут окрашены столбцы. Используется set_xticklabels для поворота надписей в избежание пересечений. По графику видно, что больше всего клиентов имеют статус домовладения Аренда.

Рисунок 9 – Создание диаграммы

Задание 2: Использовать pandas и plot. Отфильтровать возраст - до 100. По сводной таблице (pivot_table) - отобразить средний доход (income) по возрасту. Оставить только маркеры в виде ★ коричневого цвета размером 16.

Фильтровать возраст не требуется, так как значений больше 100 в этом столбце не имеется. Была создана сводная таблица среднего дохода по возрасту (Рисунок 10), к ней применён метод plot для создания графика. По графику видно, вместе с возрастом увеличивается и доход клиентов.

Рисунок 10 – Создание графика

Задание 3: Использовать matplotlib. Построить круговую диаграмму, которая отображает процент по каждой цели кредита (intent).

Посчитано количество записей для каждой цели кредита (Рисунок 11).

Рисунок 11 – Кол-во записей для каждой цели кредита

Создана фигура размером 26 на 8, добавлена круговая диаграмма с данными из intent_count, с помощью autopct автоматически посчитаны проценты (Рисунок 12).

Рисунок 12 – Круговая диаграмма

Ссылка на Google Colab:

Вывод:

В ходе выполнения лабораторной работы были освоены навыки визуализации данных. В результате визуализации выяснилось, что самой частой целью кредита является образование, большинство клиентов арендует жильё, с увеличением возраста клиентов увеличивается и их средний доход, большинство клиентов не допускали ранее дефолта по кредиту.

Соседние файлы в папке Боженко ЛР