
ГУАП
КАФЕДРА № 41
ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ
ПРЕПОДАВАТЕЛЬ
Ассистент |
|
|
|
В.В. Боженко |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №3 |
КЛАСТЕРИЗАЦИЯ ДАННЫХ |
по курсу: ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ |
|
|
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ ГР. № |
4016 |
|
|
|
М.О. Жовтяк |
|
|
|
подпись, дата |
|
инициалы, фамилия |
Санкт-Петербург 2022
Цель работы
Цель: изучить алгоритмы и методы кластерного анализа на практике
Вариант задания
Вариант 14. Так как преподаватель выдал только 5 вариантов, то будет выполняться 4 вариант работы.
Записи о болезнях сердца
Столбцы
1. возраст: возраст пациента (лет)
2. анемия: снижение количества эритроцитов или гемоглобина (логическое значение)
3. высокое кровяное давление: если у пациента гипертония (логическое значение)
4. креатининфосфокиназа (КФК): уровень фермента КФК в крови (мкг/л)
5. диабет: если у пациента диабет (логическое значение)
6. фракция выброса: процент крови, покидающей сердце при каждом сокращении (в процентах)
7. тромбоциты: тромбоциты в крови (килотромбоциты/ мл)
8. пол: женщина или мужчина (бинарный)
9. креатинин сыворотки: уровень креатинина сыворотки в крови (мг/дл)
10. натрий сыворотки: уровень натрия сыворотки в крови (мэкв/л)
11.курение: если пациент курит или нет (логическое)
12.время: период наблюдения (дни)
13. событие смерти: если пациент умер в течение периода наблюдения (логическое значение)
Предварительный анализ данных
Загружается датасет с помощью библиотеки pandas в Jupyter-ноутбук, использую Google Colab. Результат на рисунке 1.
Рисунок 1 – Загрузка датасета
Выполняется загрузка библиотек, настройка csv-файла. Выводятся первые 20 строк с помощью команды head(). Результат работы можно увидеть на рисунке 2.
Рисунок 2 – Вывод таблицы
Записи о болезнях сердца:
возраст: возраст пациента (лет)
анемия: снижение количества эритроцитов или гемоглобина (логическое значение)
высокое кровяное давление: если у пациента гипертония (логическое значение)
креатининфосфокиназа (КФК): уровень фермента КФК в крови (мкг/л)
диабет: если у пациента диабет (логическое значение)
фракция выброса: процент крови, покидающей сердце при каждом сокращении (в процентах)
тромбоциты: тромбоциты в крови (килотромбоциты/ мл)
пол: женщина или мужчина (бинарный)
креатинин сыворотки: уровень креатинина сыворотки в крови (мг/дл)
натрий сыворотки: уровень натрия сыворотки в крови (мэкв/л)
курение: если пациент курит или нет (логическое)
время: период наблюдения (дни)
событие смерти: если пациент умер в течение периода наблюдения (логическое значение)
С помощью команды info() оцениваются столбцы датасета. Результат на рисунке 3.
Рисунок 3 – Информация о датасете
Проанализировав данные, можно сделать следующие выводы:
Всего 299 объектов, пустых строк нет
Все столбцы имеют правильный тип данных
Все столбцы имеют правильное название
Будет выполнена проверка на явные дубликаты, проверки на неявные дубликаты не предвидится, так как нет столбцов с строковым значением
В датасете удаляются дубликаты данных с помощью команды drop_duplicates(), так как необходимы только уникальные значения. После этого выполняется обновления индексации с помощью команды drop_duplicates().reset_index(), чтобы не существовало пустых строк. После этого выполняется проверка датасета на дубликаты с помощью команды duplicated().sum(). Дубликатов, судя по рисунку 4 не было.
Рисунок 4 – Удаление дубликатов данных
В поиске неявных дубликатов, удалении пустых строк, смене названий столбцов и их типов нет никакой необходимости, поэтому предварительная обработка данных завершена.