- •Построение точечной диаграммы (матрицы диаграммы рассеяния)
- •Построение матрицы корреляции
- •Построение тепловой карты корреляции
- •Дополнительные задания
- •Построить гистограммы с плотностью по каждому числовому столбцу через histplot.
- •Реализовать график, поделенный на шестиугольные области (Hexagonal binning plot) по доходу и количеству покупок.
Дополнительные задания
Построить гистограммы с плотностью по каждому числовому столбцу через histplot.
Так, как числовые столбцы в датасете имеют разный диапазон данных (год, количество детей, доход, количество покупок), то отобразить их гистограммы с плотностями на одном графике не получится (не будет видно результата), поэтому отображаются четыре графика на одном рисунке. С помощью subplots создается рисунок 2 на 2 с подграфиками. Histplot строит гистограммы с плотностью для каждого числового столбца, указание параметра Kde=True указывает на включение оценки плотности ряда, параметр stat указывает какие статические данные будут отображаться на гистограмме (в данном случае- плотность), параметр ax указывает на каком подграфике следует построить гистограмму (рисунок 17-18).
Рисунок 17-Построение гистограмм с плотностью
Рисунок 18- Построенные гистограммы
Построив гистограммы с плотностями, можно сказать, что кривые линии на гистограммах показывают вероятность наблюдения значения на определенном интервале. Максимальное количество клиентов рождены в период с 1970 по 1980 года. Большинство клиентов имеют доход от 40000 до 80000 и не имеют детей.
Для графика с точками (задание №2) создать второй график с линиями и точками.
Создана сводная таблица, которая группирует данные по уровню образования и вычисляет минимальное значение дохода для каждой группы. Метод plot создает график на основе сводной таблицы. для того, чтобы на графике были линии с маркерами использовался параметр style='o-' (рисунок 19).
Рисунок 19-Создание графика с линиями и точками
Есть столбец с доходом, нужно написать функцию, которая категоризирует его на три категории, столбец с возрастом тоже, каждый должен быть в текстовом формате.
Созданы две функции categorize_age и categorize_income, которые принимают числовые значения Year_Birth и Income, и возвращают категории на основе заданных условий. Затем эти функции применяются к столбцам "Year_Birth" и "Income". В результате создаются два новых столбца "Age_Category" и "Income_Category", в которых каждая запись получает свою категорию в соответствии с условиями (рисунок 20-21).
Рисунок 20-Создание функции
Рисунок 21- Вывод первых 20 строк датасета
Реализовать boxplot (диаграмму размаха) по количеству покупок.
Для реализации диаграммы размаха для каждой категории дохода использовался boxplot (рисунок 22).
Рисунок 22- Реализация диаграммы размаха
Данная диаграмма размаха полезна для визуализации распределения данных и выявления выбросов. Черная линия - медиана (среднее значение дохода в категории). Ящик показывает разброс данных или степень изменчивости данных, в данном случае разброс относительно узкий у высокого и низкого дохода. Широкий разброс у среднего дохода. Ромбики -это выбросы, которые подразумевают, что есть данные, которые находятся далеко от основных данных и указывают на наличие нетипичных значений.
Реализовать график, поделенный на шестиугольные области (Hexagonal binning plot) по доходу и количеству покупок.
Hexbin реализует график, поделенный на шестиугольные области, gridsize устанавливает размер сетки. Colorbar добавляет цветовую шкалу, которая показывает соответствие цветов на графике значениям плотности точек (рисунок 23).
Рисунок 23- Создание Hexagonal binning plot
Из данного графика, можно сказать, чем интенсивнее цвет шестиугольника, тем больше точек с определенными значениями дохода и количества покупок находится в этой области. Самой темной областью является та, где доход составляет 80000, а количество покупок - 1.
Ссылка на Colab:
https://colab.research.google.com/drive/1yiLbl7hIx70CjWs6H0oDibNDHQ2fB5n0?usp=sharing
Вывод
В ходе выполнения лабораторной работы с помощью различных графических инструментов проведена визуализация набора данных о клиентах. Для визуализации были построены матрица диаграмм рассеяния, матрица корреляции, тепловая карта корреляции, столбчатая, точечная и круговая диаграммы. Из визуализации выяснено, что наибольший доход имеют клиенты, которые не имеют детей. Также самый маленький доход в основном имеют одинокие клиенты, самый большой - женатые. Обычно покупки совершают клиенты либо с самым маленьким, либо с самым большим доходом. Большинство клиентов женаты или замужем и не имеют детей. Также для дополнительной визуализации построены гистограммы с плотностью для каждого числового столбца, диаграмма размаха по количеству покупок и график зависимости между доходом и количеством покупок, поделенный на шестиугольные области.
