Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

lab3_machine

.docx
Скачиваний:
2
Добавлен:
27.08.2024
Размер:
273.36 Кб
Скачать

ГУАП

КАФЕДРА № 41

ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

Ассистент

В.В. Боженко

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №3

СЕТЬ КОХОНЕНА

по курсу: МАШИННОЕ ОБУЧЕНИЕ

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ ГР. №

4016

М.О. Жовтяк

подпись, дата

инициалы, фамилия

Санкт-Петербург 2023

  1. Цель работы

Цель: выполнить кластеризацию с помощью сети Кохонена.

  1. Вариант задания

Задание: Вариант 14. Так как преподаватель выдал только 5 вариантов, то будет выполняться 4 вариант работы.

Записи о болезнях сердца

Столбцы:

1. возраст: возраст пациента (лет)

2. анемия: снижение количества эритроцитов или гемоглобина (логическое значение)

3. высокое кровяное давление: если у пациента гипертония (логическое значение)

4. креатининфосфокиназа (КФК): уровень фермента КФК в крови (мкг/л)

5. диабет: если у пациента диабет (логическое значение)

6. фракция выброса: процент крови, покидающей сердце при каждом сокращении (в процентах)

7. тромбоциты: тромбоциты в крови (килотромбоциты/ мл)

8. пол: женщина или мужчина (бинарный)

9. креатинин сыворотки: уровень креатинина сыворотки в крови (мг/дл)

10. натрий сыворотки: уровень натрия сыворотки в крови (мэкв/л)

11.курение: если пациент курит или нет (логическое)

12.время: период наблюдения (дни)

13. событие смерти: если пациент умер в течение периода наблюдения (логическое значение)

Ссылка на Jupyter Notebook:

https://colab.research.google.com/drive/1fE4qN5eiRp4pcd7Lg3fcH9lL8QIEgzO7

  1. Ход выполнения работы

Импортируются библиотеки. Это представлено на рисунке 1.

Рисунок 1 – Импорт библиотек

Загружается датасет, удаляются дубликаты и пустые строки. Это представлено на рисунке 2.

Рисунок 2 – Загрузка датасета, предварительный анализ

Отделяется целевой признак, а также происходит векторзация признаков с помощью библиотеки StandartScaler. Это представлено на рисунке 3.

Рисунок 3 – Выбор целевого признака, векторизация

Объявляются необходимые для работы переменные, и заполняются вектора весов случайными числами. Это представлено на рисунке 4.

Рисунок 4 – Объявление переменных, заполнение векторов весов

После этого опишем функцию нахождения матрицы весов: Для этого будем проходить по заданному количеству эпох, и для каждой строки будем считать евклидовое расстояние до каждого кластера, находя минимальное и определяя кластер-победитель. После этого будем пересчитывать матрицу весов и переопределим переменные радиуса и дельты. Также опишем функцию предсказания, где для входной строки будем искать наименьшее евклидовое расстояние до кластера и определим кластер-победитель как результат. Это представлено на рисунке 5.

Рисунок 5 – Создание функций обучения сети и предсказания кластера

Выполняется тренировка и предсказание на данном датасете, высчитывается метрика силуэта.

Рисунок 6 – Тренировка, предсказание, метрика силуэта

Примерная метрика силуэта равна 0.06-0.09. При методе K-Means этот показатель был равен 0.11. Значит, что сеть Кохонена справилась хуже метода K-means.

Выведем ключевые признаки каждого кластера. Это представлено на рисунке 7.

Рисунок 7 – Ключевые признаки кластера

Совпадение значимых признаков в каждом кластере по сравнению с методом K-Means в среднем от 2 до 3.

Строится тепловая карта. Это представлено на рисунке 8.

Рисунок 8 – Тепловая карта

  1. Вывод

В ходе выполнения данной лабораторной работы была проведена первичная обработка данных. После этого, данные были стандартизированы при помощи метода StandartScaler. Затем были написаны две функции: заполнения матрицы весов и предсказания. После этого была проведена кластеризация методом сети Кохонена. Также была проведена оценка кластеризации с помощью подсчета метрики силуэта. На основе этого можно сделать вывод, что кластеризация выполнена некачественно, так как этот показатель близок к нулю, точно также как и с методом K-means. Вероятно, что проблема в данных.

В ходе работы проблем не возникло.

Соседние файлы в предмете Машинное обучение