
Z9411_Чурилов_Анализ_данных
.docxГУАП
КАФЕДРА № 41
ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ
ПРЕПОДАВАТЕЛЬ
д-р техн. наук, профессор |
|
|
|
Т. М. Татарникова |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ЛАБОРАТОРНАЯ РАБОТА Вариант 3 |
|
по курсу: «Введение в анализ данных» |
|
|
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ ГР. № |
Z9411 |
|
|
|
А. С. Чурилов |
|
|
|
подпись, дата |
|
инициалы, фамилия |
Санкт-Петербург 2023
Цель работы: изучить алгоритмы и методы кластерного анализа на практике.
Вариант 3.
Атрибуты:
1. id
2. Толщина скопления: 1–10
3. Однородность размера клеток: 1–10
4. Однородность формы клеток: 1–10
5. Краевая адгезия: 1–10
6. Размер отдельных эпителиальных клеток: 1 - 10
7. Голые ядра: 1 - 10
8. Бледный хроматин: 1 - 10
9. Нормальные ядрышки: 1 - 10
10. Митозы: 1 - 10
11. Класс: (2 для доброкачественных, 4 для
злокачественных)
Произведём предварительную обработку данных:
Возьмём базу данных, предоставленную вариантом, и удалим строчки с повторяющиеся значения в столбце «id», а также удалим строчки с утерянными данными.
Рисунок 1. База данных
Получившаяся база данных доступна по ссылке:
https://docs.google.com/spreadsheets/d/1TXSw-vjuAMl7U4jXxAuxHuF2crEtc5eg8yYECAKoxIA/edit#gid=576057443
Начнём выполнение работы в коллабе:
Загрузим библиотеки и анализируемый файл
Выведем данные
Оценим данные
Переименуем столбцы
Проверим данные на пропуски
Проведём поиск неявных дубликатов
Проведём поиск явных дубликатов
Изменим типы данных столбцов
Проведём кластеризацию иерархическим агломеративным методом
Построим дендрограмму
Проведём кластеризацию методом k-средних
Ссылка на коллаб: https://colab.research.google.com/drive/11mAUUT6u_B4K3jl7KVP71Q5Tp67xCUJK?usp=sharing