Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
анализ2.docx
Скачиваний:
8
Добавлен:
11.04.2025
Размер:
1.44 Mб
Скачать

Дополнительные задания

  1. Построить гистограммы с плотностью по каждому числовому столбцу через histplot.

Так, как числовые столбцы в датасете имеют разный диапазон данных (год, количество детей, доход, количество покупок), то отобразить их гистограммы с плотностями на одном графике не получится (не будет видно результата), поэтому отображаются четыре графика на одном рисунке. С помощью subplots создается рисунок 2 на 2 с подграфиками. Histplot строит гистограммы с плотностью для каждого числового столбца, указание параметра Kde=True указывает на включение оценки плотности ряда, параметр stat указывает какие статические данные будут отображаться на гистограмме (в данном случае- плотность), параметр ax указывает на каком подграфике следует построить гистограмму (рисунок 17-18).

Рисунок 17-Построение гистограмм с плотностью

Рисунок 18- Построенные гистограммы

Построив гистограммы с плотностями, можно сказать, что кривые линии на гистограммах показывают вероятность наблюдения значения на определенном интервале. Максимальное количество клиентов рождены в период с 1970 по 1980 года. Большинство клиентов имеют доход от 40000 до 80000 и не имеют детей.

  1. Для графика с точками (задание №2) создать второй график с линиями и точками.

Создана сводная таблица, которая группирует данные по уровню образования и вычисляет минимальное значение дохода для каждой группы. Метод plot создает график на основе сводной таблицы. для того, чтобы на графике были линии с маркерами использовался параметр style='o-' (рисунок 19).

Рисунок 19-Создание графика с линиями и точками

  1. Есть столбец с доходом, нужно написать функцию, которая категоризирует его на три категории, столбец с возрастом тоже, каждый должен быть в текстовом формате.

Созданы две функции categorize_age и categorize_income, которые принимают числовые значения Year_Birth и Income, и возвращают категории на основе заданных условий. Затем эти функции применяются к столбцам "Year_Birth" и "Income". В результате создаются два новых столбца "Age_Category" и "Income_Category", в которых каждая запись получает свою категорию в соответствии с условиями (рисунок 20-21).

Рисунок 20-Создание функции

Рисунок 21- Вывод первых 20 строк датасета

  1. Реализовать boxplot (диаграмму размаха) по количеству покупок.

Для реализации диаграммы размаха для каждой категории дохода использовался boxplot (рисунок 22).

Рисунок 22- Реализация диаграммы размаха

Данная диаграмма размаха полезна для визуализации распределения данных и выявления выбросов. Черная линия - медиана (среднее значение дохода в категории). Ящик показывает разброс данных или степень изменчивости данных, в данном случае разброс относительно узкий у высокого и низкого дохода. Широкий разброс у среднего дохода. Ромбики -это выбросы, которые подразумевают, что есть данные, которые находятся далеко от основных данных и указывают на наличие нетипичных значений.

  1. Реализовать график, поделенный на шестиугольные области (Hexagonal binning plot) по доходу и количеству покупок.

Hexbin реализует график, поделенный на шестиугольные области, gridsize устанавливает размер сетки. Colorbar добавляет цветовую шкалу, которая показывает соответствие цветов на графике значениям плотности точек (рисунок 23).

Рисунок 23- Создание Hexagonal binning plot

Из данного графика, можно сказать, чем интенсивнее цвет шестиугольника, тем больше точек с определенными значениями дохода и количества покупок находится в этой области. Самой темной областью является та, где доход составляет 80000, а количество покупок - 1.

Ссылка на Colab:

https://colab.research.google.com/drive/1yiLbl7hIx70CjWs6H0oDibNDHQ2fB5n0?usp=sharing

Вывод

В ходе выполнения лабораторной работы с помощью различных графических инструментов проведена визуализация набора данных о клиентах. Для визуализации были построены матрица диаграмм рассеяния, матрица корреляции, тепловая карта корреляции, столбчатая, точечная и круговая диаграммы. Из визуализации выяснено, что наибольший доход имеют клиенты, которые не имеют детей. Также самый маленький доход в основном имеют одинокие клиенты, самый большой - женатые. Обычно покупки совершают клиенты либо с самым маленьким, либо с самым большим доходом. Большинство клиентов женаты или замужем и не имеют детей. Также для дополнительной визуализации построены гистограммы с плотностью для каждого числового столбца, диаграмма размаха по количеству покупок и график зависимости между доходом и количеством покупок, поделенный на шестиугольные области.

Соседние файлы в предмете Анализ данных