Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
анализ2.docx
Скачиваний:
0
Добавлен:
11.04.2025
Размер:
1.44 Mб
Скачать

ГУАП

КАФЕДРА № 41

ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

Старший преподаватель

В.В. Боженко

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №2

ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ

по курсу: ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ гр. №

4116

подпись, дата

инициалы, фамилия

Санкт-Петербург 2023

Цель работы: изучение связи между признаками двумерного набора данных, визуализация данных.

Вариант 6 ( clients2.csv)

Ход работы

Импортирование датасета

С помощью библиотеки pandas импортирован датасет. Команда read_csv применяется для чтения таблицы, так как разделителем в таблице является ";", используется sep (рисунок 1).

Рисунок 1- Импортирование датасета

Устранение проблем в данных

Как и в первой лабораторной работе данные были приведены в порядок. На рисунке 2 показан вывод оценки данных и переименовывание столбцов.

Рисунок 2- Оценка данных и переименовывание столбцов

Далее выполнялся поиск явных дубликатов и их удаление (рисунок 3).

Рисунок 3- Поиск и удаление дубликатов

Затем выводились все уникальные значения и производилась замена некорректно написанных значений на корректные (рисунок 4).

Рисунок 4- Поиск уникальных значение и исправление некорректно написанных

Затем выполнялось удаление пустых строк и изменение типов данных столбцов (рисунок 5).

Рисунок 5- Удаление пустых строк и изменение типов данных столбцов

Построение точечной диаграммы (матрицы диаграммы рассеяния)

Импортирована библиотека для построения графиков seaborn. И построен график попарных отношений с помощью pairplot. Параметр hue='Kidhome' означает, что категория 'Kidhome' будет использоваться для раскраски данных (рисунок 6-7).

Рисунок 6- Создание графика попарных отношений

Рисунок 7- Графики попарных отношений (матрица диаграммы рассеяния)

Исходя из графиков можно сказать, что наибольший доход имеют клиенты, у которых нет детей. Наибольшее количество покупок совершают клиенты, которые не имеют детей. Больше всего покупок совершают клиенты, которые имеют доход от 50000 до 100000.

Затем был построен график попарных отношений для выбранных категорий, для цветовой раскраски используется категория 'Marital_Status' (рисунок 8).

Рисунок 8-График попарных отношений для выбранных категорий

По полученным данным можно определить, что самый маленький доход имеют одинокие клиенты, самый большой- женатые. Клиенты, которые имеют одного ребенка чаще совершают покупки. Наибольшее количество покупок совершили клиенты, у которых либо самый наибольший, либо самый наименьший доход.

Построение матрицы корреляции

Далее создавалась матрица корреляции, которая помогает определить, насколько две переменные изменяются вместе (рисунок 9).

Рисунок 9- Матрица корреляции

Исходя из матрицы, можно сказать, что есть как положительная, так и отрицательная корреляция. Положительная корреляция означает, что увеличение одной переменной связано с увеличением другой переменной. Отрицательная - увеличение одной переменной сопровождается уменьшением другой. Значит, что с увеличением дохода уменьшается год рождения, количество детей и количество покупок клиентов. Количество покупок увеличивается в зависимости от роста количества детей и спадом дохода.

Построение тепловой карты корреляции

Затем была реализована тепловая карта корреляции, в которой для представления значений данных используются разные оттенки цветов. Для создания тепловой карты использовался heatmap с параметрами: annot (отображение числовых значений коэффициентов), cmap (задает цветовую карту), linewidth (устанавливает толщину линий, разделяющих ячейки) (рисунок 10-11).

Рисунок 10- Создание тепловой карты корреляции

Рисунок 11- Тепловая карта корреляции

Тепловая карта отлично подходит для визуализации корреляции, цветовая палитра делает визуализацию интуитивно понятной и позволяет быстро определить степень корреляции между переменными.

Задание №1: По группировке - количество клиентов по количеству детей и по каждому семейному статусу (marital_status) построить диаграмму.

Сначала выполнялась группировка: количество клиентов по количеству детей и по семейному статусу (рисунок 12).

Рисунок 12- Группировка: количество клиентов по количеству детей и по семейному статусу

Затем создается столбчатая диаграмма c помощью barplot, где ось x- семейное положение, ось y-количество клиентов, hue задает раскраску столбцов по количеству детей. Метод set_title используется для задания название диаграмме, метод set_xlabel устанавливает подпись для оси x, метод set_ylabel устанавливает подпись для оси y. Метод legend добавляет легенду к диаграмме, параметр title устанавливает заголовок легенде, параметр loc устанавливает местоположение легенды (в верхнем правом углу) (рисунок 13).

Рисунок 13- Столбчатая диаграмма

Исходя из диаграммы: в основном клиенты женаты или замужем и не имеют детей, меньше всего одиноких клиентов.

Задание №2: По сводной таблице (pivot_table) - отобразить минимальный доход по образованию. Отобразить маркеры в виде ⬤ красного цвета размером 18.

Для создания графика на основе данных, импортирована библиотека Matplotlib. Затем создана сводная таблица, которая группирует данные по уровню образования и вычисляет минимальное значение дохода для каждой группы . Метод plot создает график на основе сводной таблицы. Параметр style='.' указывает, что нужно использовать точки в качестве маркеров, с помощью параметров color и markersize настраивается цвет и размер маркеров. Чтобы показать сетку используется параметр grid. Xlabel и ylabel задают названия осям, параметр rot поворачивает метки на горизонтальной оси на 90 градусов, title устанавливает заголовок графика (рисунок 14).

Рисунок 14- График минимальный доход по образованию

Стоит отметить, что те клиенты, которые имеют тип образования Master и Basic имеют самый высокий минимальный доход, клиенты с типом образования Graduation имеют самый низкий минимальный доход.

Задание №3: отфильтровать клиентов по year_birth больше 1980. Построить круговую диаграмму, которая отображает процент клиентов каждого семейного положения.

Сначала выполняется фильтрация датасета и остаются только клиенты родившиеся позже 1980 года. Затем с помощью метода value_counts() подсчитывается количество клиентов в каждой категории семейного положения (рисунок 15).

Рисунок 15- Фильтрация и подсчет количества клиентов

Для создания диаграммы импортирована библиотека Matplotlib. Устанавливается размер графика, и с помощью pie() на основе данных из ms_counts создается круговая диаграмма. Параметр labels использует индексы ms_counts в качестве меток сегментов, параметр autopct указывает как отображать проценты на сегментах, startangle устанавливает начальный угол для первого сегмента. Legend() добавляет легенду, параметр loc определяет местоположение легенды, параметр prop() устанавливает размер шрифта для легенды.

Рисунок 16- Создание диаграммы для процентного отображения клиентов каждого семейного положения

Из данной диаграммы отлично видно, какой процент клиентов имеет определенное семейное положение. Наибольшая часть клиентов женаты. На втором месте по количеству клиенты с семейным положением Single. Меньше всего клиентов с положением Alone.

Соседние файлы в предмете Анализ данных