
lab3_machine
.docxГУАП
КАФЕДРА № 41
ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ
ПРЕПОДАВАТЕЛЬ
Ассистент |
|
|
|
В.В. Боженко |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №3 |
СЕТЬ КОХОНЕНА |
по курсу: МАШИННОЕ ОБУЧЕНИЕ |
|
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ ГР. № |
4016 |
|
|
|
М.О. Жовтяк |
|
|
|
подпись, дата |
|
инициалы, фамилия |
Санкт-Петербург 2023
Цель работы
Цель: выполнить кластеризацию с помощью сети Кохонена.
Вариант задания
Задание: Вариант 14. Так как преподаватель выдал только 5 вариантов, то будет выполняться 4 вариант работы.
Записи о болезнях сердца
Столбцы:
1. возраст: возраст пациента (лет)
2. анемия: снижение количества эритроцитов или гемоглобина (логическое значение)
3. высокое кровяное давление: если у пациента гипертония (логическое значение)
4. креатининфосфокиназа (КФК): уровень фермента КФК в крови (мкг/л)
5. диабет: если у пациента диабет (логическое значение)
6. фракция выброса: процент крови, покидающей сердце при каждом сокращении (в процентах)
7. тромбоциты: тромбоциты в крови (килотромбоциты/ мл)
8. пол: женщина или мужчина (бинарный)
9. креатинин сыворотки: уровень креатинина сыворотки в крови (мг/дл)
10. натрий сыворотки: уровень натрия сыворотки в крови (мэкв/л)
11.курение: если пациент курит или нет (логическое)
12.время: период наблюдения (дни)
13. событие смерти: если пациент умер в течение периода наблюдения (логическое значение)
Ссылка на Jupyter Notebook:
https://colab.research.google.com/drive/1fE4qN5eiRp4pcd7Lg3fcH9lL8QIEgzO7
Ход выполнения работы
Импортируются библиотеки. Это представлено на рисунке 1.
Рисунок 1 – Импорт библиотек
Загружается датасет, удаляются дубликаты и пустые строки. Это представлено на рисунке 2.
Рисунок 2 – Загрузка датасета, предварительный анализ
Отделяется целевой признак, а также происходит векторзация признаков с помощью библиотеки StandartScaler. Это представлено на рисунке 3.
Рисунок 3 – Выбор целевого признака, векторизация
Объявляются необходимые для работы переменные, и заполняются вектора весов случайными числами. Это представлено на рисунке 4.
Рисунок 4 – Объявление переменных, заполнение векторов весов
После этого опишем функцию нахождения матрицы весов: Для этого будем проходить по заданному количеству эпох, и для каждой строки будем считать евклидовое расстояние до каждого кластера, находя минимальное и определяя кластер-победитель. После этого будем пересчитывать матрицу весов и переопределим переменные радиуса и дельты. Также опишем функцию предсказания, где для входной строки будем искать наименьшее евклидовое расстояние до кластера и определим кластер-победитель как результат. Это представлено на рисунке 5.
Рисунок 5 – Создание функций обучения сети и предсказания кластера
Выполняется тренировка и предсказание на данном датасете, высчитывается метрика силуэта.
Рисунок 6 – Тренировка, предсказание, метрика силуэта
Примерная метрика силуэта равна 0.06-0.09. При методе K-Means этот показатель был равен 0.11. Значит, что сеть Кохонена справилась хуже метода K-means.
Выведем ключевые признаки каждого кластера. Это представлено на рисунке 7.
Рисунок 7 – Ключевые признаки кластера
Совпадение значимых признаков в каждом кластере по сравнению с методом K-Means в среднем от 2 до 3.
Строится тепловая карта. Это представлено на рисунке 8.
Рисунок 8 – Тепловая карта
Вывод
В ходе выполнения данной лабораторной работы была проведена первичная обработка данных. После этого, данные были стандартизированы при помощи метода StandartScaler. Затем были написаны две функции: заполнения матрицы весов и предсказания. После этого была проведена кластеризация методом сети Кохонена. Также была проведена оценка кластеризации с помощью подсчета метрики силуэта. На основе этого можно сделать вывод, что кластеризация выполнена некачественно, так как этот показатель близок к нулю, точно также как и с методом K-means. Вероятно, что проблема в данных.
В ходе работы проблем не возникло.