
Анализ связей между признаками двумерного набора данных
Выполняется построение зависимости болезни человека от возраста при помощи метода plot с помощью графика scatter. Например, посмотрим зависимость общего билирубина в зависимости от возраста человека с помощью столбцов TotalBilirubin и Age. Результат представлен на рисунке 10.
Рисунок 10 – Зависимость билирубина от возраста человека
На графике можно увидеть, что в среднем в независимости от возраста у человека один и тот же уровень общего билирубина в районе от 1 до 10, хотя с увеличением возраста, начиная от 20 лет, есть исключительные случаи многократного количества билирубина, аж вплоть до 45.
Выполняется построение диаграмм рассеяния по всему датасету при помощи метода plotting() и scatter_matrix(). Результат на рисунке 11.
Рисунок 11 – Диаграмма рассеяния по всему датасету
Детально проанализировав графики, можно предположить, что существует зависимость между такими величинами:
1) Direct_Bilirubin и TotalBilirubin
2) TotalProtiens и Albumin
3) Albumin и Albumin_and_Globulin_Ratio
Создается новый датасет, который включает в себя упомянутые выше столбцы таблицы, так как такое огромное количество графиков просто нечитабельно. Результат представлен на рисунке 12.
Рисунок 12 – Диаграмма рассеяния по определенным столбцам
Исходя из графиков, можно увидеть, что:
1) С увеличением Direct_Bilirubin также пропорционально увеличивается TotalBilirubin;
2) С увеличением Albumin также пропорционально увеличиваестся Albumin_and_Globulin_Ratio;
3) С увеличением Albumin также пропорционально увеличвается Total_Protiens;
4) По остальным графикам можно мало, что сказать.
Оценить насколько тесна взаимосвязь, можно с помощью коэффицента корреляции Пирсона, благодарая методу corr(). Результат представлен на рисунке 13.
Рисунок 13 – Таблица коэффицентов корреляции
Действительно можно увидеть, что у выбранных столбцов коэффицент корреляции стремится к крайнему значению 1. Это подтверждает выдвинутые мной предположения о зависимостях между величинами.
Аналогично рассмотрим коэффицент ковариации. Результат представлен на рисунке 14.
Рисунок 14 – Таблица коэффициентов ковариации
Коэффициент ковариации показал, как именно величины зависят друг от друга, так как у выбранных мною величин, то ковариация положительна. Все как аналогично коэффициенту корреляции, хотя корреляция легче интерпретируема и читабельна.
Выполняется построение тепловой карты для датасета. Результат представлен на рисунке 15.
Рисунок 15 – Тепловая карта датасета
Карта является перегруженной из-за большого количества данных, поэтому строится карта для ранее созданного датасета df_2. Результат представлен на рисунке 16.
Рисунок 16 – Тепловая карта коэффициентов корреляции определенных столбцов
Теперь можно увидеть, что информация на тепловой карте воспринимается быстрее и понятнее, чем банальная таблица. Человеческий глаз лучше воспринимает цвета, чем цифры. Если говорить о самих парметрах коэффицентов корреляции, то выводы можно сделать аналогичные:
1) С увеличением Direct_Bilirubin также пропорционально увеличивается TotalBilirubin что соответствует коэффициенту корреляции приближенно равному единице (0,87);
2) С увеличением Albumin также пропорционально увеличиваестся Albumin_and_Globulin_Ratio что соответствует коэффициенту корреляции приближенно равному единицу (0,69);
3) С увеличением Albumin также пропорционально увеличвается Total_Protiens что соответствует коэффиценту корреляции приближенно равному единицу (0,79);
Анализ с коэффициентом ковариации не считаю важным, так как его данные сложно интерпретировать и в принципе корреляция - это нормализованная форма ковариации.