Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
lab3_analysis.docx
Скачиваний:
2
Добавлен:
27.08.2024
Размер:
491.75 Кб
Скачать

ГУАП

КАФЕДРА № 41

ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

Ассистент

В.В. Боженко

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №3

КЛАСТЕРИЗАЦИЯ ДАННЫХ

по курсу: ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ ГР. №

4016

М.О. Жовтяк

подпись, дата

инициалы, фамилия

Санкт-Петербург 2022

  1. Цель работы

Цель: изучить алгоритмы и методы кластерного анализа на практике

  1. Вариант задания

Вариант 14. Так как преподаватель выдал только 5 вариантов, то будет выполняться 4 вариант работы.

Записи о болезнях сердца

Столбцы

1. возраст: возраст пациента (лет)

2. анемия: снижение количества эритроцитов или гемоглобина (логическое значение)

3. высокое кровяное давление: если у пациента гипертония (логическое значение)

4. креатининфосфокиназа (КФК): уровень фермента КФК в крови (мкг/л)

5. диабет: если у пациента диабет (логическое значение)

6. фракция выброса: процент крови, покидающей сердце при каждом сокращении (в процентах)

7. тромбоциты: тромбоциты в крови (килотромбоциты/ мл)

8. пол: женщина или мужчина (бинарный)

9. креатинин сыворотки: уровень креатинина сыворотки в крови (мг/дл)

10. натрий сыворотки: уровень натрия сыворотки в крови (мэкв/л)

11.курение: если пациент курит или нет (логическое)

12.время: период наблюдения (дни)

13. событие смерти: если пациент умер в течение периода наблюдения (логическое значение)

  1. Предварительный анализ данных

Загружается датасет с помощью библиотеки pandas в Jupyter-ноутбук, использую Google Colab. Результат на рисунке 1.

Рисунок 1 – Загрузка датасета

Выполняется загрузка библиотек, настройка csv-файла. Выводятся первые 20 строк с помощью команды head(). Результат работы можно увидеть на рисунке 2.

Рисунок 2 – Вывод таблицы

Записи о болезнях сердца:

  • возраст: возраст пациента (лет)

  • анемия: снижение количества эритроцитов или гемоглобина (логическое значение)

  • высокое кровяное давление: если у пациента гипертония (логическое значение)

  • креатининфосфокиназа (КФК): уровень фермента КФК в крови (мкг/л)

  • диабет: если у пациента диабет (логическое значение)

  • фракция выброса: процент крови, покидающей сердце при каждом сокращении (в процентах)

  • тромбоциты: тромбоциты в крови (килотромбоциты/ мл)

  • пол: женщина или мужчина (бинарный)

  • креатинин сыворотки: уровень креатинина сыворотки в крови (мг/дл)

  • натрий сыворотки: уровень натрия сыворотки в крови (мэкв/л)

  • курение: если пациент курит или нет (логическое)

  • время: период наблюдения (дни)

  • событие смерти: если пациент умер в течение периода наблюдения (логическое значение)

С помощью команды info() оцениваются столбцы датасета. Результат на рисунке 3.

Рисунок 3 – Информация о датасете

Проанализировав данные, можно сделать следующие выводы:

  • Всего 299 объектов, пустых строк нет

  • Все столбцы имеют правильный тип данных

  • Все столбцы имеют правильное название

  • Будет выполнена проверка на явные дубликаты, проверки на неявные дубликаты не предвидится, так как нет столбцов с строковым значением

В датасете удаляются дубликаты данных с помощью команды drop_duplicates(), так как необходимы только уникальные значения. После этого выполняется обновления индексации с помощью команды drop_duplicates().reset_index(), чтобы не существовало пустых строк. После этого выполняется проверка датасета на дубликаты с помощью команды duplicated().sum(). Дубликатов, судя по рисунку 4 не было.

Рисунок 4 – Удаление дубликатов данных

В поиске неявных дубликатов, удалении пустых строк, смене названий столбцов и их типов нет никакой необходимости, поэтому предварительная обработка данных завершена.

Соседние файлы в предмете Введение в анализ данных