Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
lab2_analysis.docx
Скачиваний:
3
Добавлен:
27.08.2024
Размер:
1.15 Mб
Скачать
  1. Анализ связей между признаками двумерного набора данных

Выполняется построение зависимости болезни человека от возраста при помощи метода plot с помощью графика scatter. Например, посмотрим зависимость общего билирубина в зависимости от возраста человека с помощью столбцов TotalBilirubin и Age. Результат представлен на рисунке 10.

Рисунок 10 – Зависимость билирубина от возраста человека

На графике можно увидеть, что в среднем в независимости от возраста у человека один и тот же уровень общего билирубина в районе от 1 до 10, хотя с увеличением возраста, начиная от 20 лет, есть исключительные случаи многократного количества билирубина, аж вплоть до 45.

Выполняется построение диаграмм рассеяния по всему датасету при помощи метода plotting() и scatter_matrix(). Результат на рисунке 11.

Рисунок 11 – Диаграмма рассеяния по всему датасету

Детально проанализировав графики, можно предположить, что существует зависимость между такими величинами:

1) Direct_Bilirubin и TotalBilirubin

2) TotalProtiens и Albumin

3) Albumin и Albumin_and_Globulin_Ratio

Создается новый датасет, который включает в себя упомянутые выше столбцы таблицы, так как такое огромное количество графиков просто нечитабельно. Результат представлен на рисунке 12.

Рисунок 12 – Диаграмма рассеяния по определенным столбцам

Исходя из графиков, можно увидеть, что:

1) С увеличением Direct_Bilirubin также пропорционально увеличивается TotalBilirubin;

2) С увеличением Albumin также пропорционально увеличиваестся Albumin_and_Globulin_Ratio;

3) С увеличением Albumin также пропорционально увеличвается Total_Protiens;

4) По остальным графикам можно мало, что сказать.

Оценить насколько тесна взаимосвязь, можно с помощью коэффицента корреляции Пирсона, благодарая методу corr(). Результат представлен на рисунке 13.

Рисунок 13 – Таблица коэффицентов корреляции

Действительно можно увидеть, что у выбранных столбцов коэффицент корреляции стремится к крайнему значению 1. Это подтверждает выдвинутые мной предположения о зависимостях между величинами.

Аналогично рассмотрим коэффицент ковариации. Результат представлен на рисунке 14.

Рисунок 14 – Таблица коэффициентов ковариации

Коэффициент ковариации показал, как именно величины зависят друг от друга, так как у выбранных мною величин, то ковариация положительна. Все как аналогично коэффициенту корреляции, хотя корреляция легче интерпретируема и читабельна.

Выполняется построение тепловой карты для датасета. Результат представлен на рисунке 15.

Рисунок 15 – Тепловая карта датасета

Карта является перегруженной из-за большого количества данных, поэтому строится карта для ранее созданного датасета df_2. Результат представлен на рисунке 16.

Рисунок 16 – Тепловая карта коэффициентов корреляции определенных столбцов

Теперь можно увидеть, что информация на тепловой карте воспринимается быстрее и понятнее, чем банальная таблица. Человеческий глаз лучше воспринимает цвета, чем цифры. Если говорить о самих парметрах коэффицентов корреляции, то выводы можно сделать аналогичные:

1) С увеличением Direct_Bilirubin также пропорционально увеличивается TotalBilirubin что соответствует коэффициенту корреляции приближенно равному единице (0,87);

2) С увеличением Albumin также пропорционально увеличиваестся Albumin_and_Globulin_Ratio что соответствует коэффициенту корреляции приближенно равному единицу (0,69);

3) С увеличением Albumin также пропорционально увеличвается Total_Protiens что соответствует коэффиценту корреляции приближенно равному единицу (0,79);

Анализ с коэффициентом ковариации не считаю важным, так как его данные сложно интерпретировать и в принципе корреляция - это нормализованная форма ковариации.

Соседние файлы в предмете Введение в анализ данных