Добавил:
t.me Инфо для ГУАП студентов от меня: https://kafaka.notion.site/99e6d9b70ca74f7baef3daea17839e5a Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Z9411_Чурилов_Анализ_данных

.docx
Скачиваний:
1
Добавлен:
10.11.2024
Размер:
1.37 Mб
Скачать

ГУАП

КАФЕДРА № 41

ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

д-р техн. наук, профессор

Т. М. Татарникова

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ЛАБОРАТОРНАЯ РАБОТА

Вариант 3

по курсу: «Введение в анализ данных»

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ ГР. №

Z9411

А. С. Чурилов

подпись, дата

инициалы, фамилия

Санкт-Петербург 2023

Цель работы: изучить алгоритмы и методы кластерного анализа на практике.

Вариант 3.

Атрибуты:

1. id

2. Толщина скопления: 1–10

3. Однородность размера клеток: 1–10

4. Однородность формы клеток: 1–10

5. Краевая адгезия: 1–10

6. Размер отдельных эпителиальных клеток: 1 - 10

7. Голые ядра: 1 - 10

8. Бледный хроматин: 1 - 10

9. Нормальные ядрышки: 1 - 10

10. Митозы: 1 - 10

11. Класс: (2 для доброкачественных, 4 для

злокачественных)

Произведём предварительную обработку данных:

Возьмём базу данных, предоставленную вариантом, и удалим строчки с повторяющиеся значения в столбце «id», а также удалим строчки с утерянными данными.

Рисунок 1. База данных

Получившаяся база данных доступна по ссылке:

https://docs.google.com/spreadsheets/d/1TXSw-vjuAMl7U4jXxAuxHuF2crEtc5eg8yYECAKoxIA/edit#gid=576057443

Начнём выполнение работы в коллабе:

  1. Загрузим библиотеки и анализируемый файл

  1. Выведем данные

  1. Оценим данные

  1. Переименуем столбцы

  1. Проверим данные на пропуски

  1. Проведём поиск неявных дубликатов

  1. Проведём поиск явных дубликатов

  1. Изменим типы данных столбцов

  1. Проведём кластеризацию иерархическим агломеративным методом

  1. Построим дендрограмму

  1. Проведём кластеризацию методом k-средних

Ссылка на коллаб: https://colab.research.google.com/drive/11mAUUT6u_B4K3jl7KVP71Q5Tp67xCUJK?usp=sharing

Соседние файлы в предмете Введение в анализ данных