Добавил:
liisakochik@gmail.com Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Мага. 1 семестр / КочубейЕД_1308_лаб2

.docx
Скачиваний:
0
Добавлен:
04.01.2026
Размер:
431.83 Кб
Скачать

МИНОБРНАУКИ РОССИИ

Санкт-Петербургский государственный

электротехнический университет

«ЛЭТИ» им. В.И. Ульянова (Ленина)

Кафедра вычислительной техники

отчет

по лабораторной работе №2

по дисциплине «Машинное обучение»

Тема: Кластеризация

Студентка гр. 1308

_______________

Кочубей Е.Д.

Преподаватель

_______________

Турсуков Н.О.

Санкт-Петербург

2025

Цель работы

Получение и закрепление навыков предобработки данных и применения методов машинного обучения для решения задач кластеризации.

Задачи

  1. Обучение моделей и подбор параметров:

  1. Метод К-средних: Подбор оптимального числа кластеров k с использованием метода локтя или силуэтного анализа. Протестировать разные инициализации (k-means++). Реализовать ансамблевую кластеризацию на основе нескольких запусков K-Means с разной инициализацией.

  2. DBSCAN: Подбор гиперпараметров при помощи анализа k-расстояний. Исследовать чувствительность алгоритма к шуму и выбросам.

  3. Иерархическая кластеризация: провести кластеризацию с разными метриками расстояния. Определить оптимальное число кластеров с помощью дендрограммы. Сравнить время выполнения при увеличении объёма данных (масштабируемость).

  1. Оценка моделей:

  1. Экспертная оценка.

  2. Сравнение разбиения на классы с помощью кластеризации с реальными.

  3. Визуализация предсказанных значений.

  4. Провести кросс-валидацию устойчивости  кластеров через многократную подвыборку данных.

Датасэт

Выбранный датасэт: https://www.kaggle.com/datasets/rohanrao/air-quality-data-in-india?select=city_day.csv. Содержит в себе данные по загрязнению воздуха в разных городах Индии. Включает в себя ключевые параметры, с помощью которых высчитывается степень удовлетворённости загрязнения.

Ход работы

Метод K-средних

Текущий метод предполагает, что число кластеров k задано заранее. Выбираем параметры по сгенерированным графикам.

Рисунок 1 – графики (левый: метод локтя, правый: силуэтный анализ)

По методу локтя сумма квадратов расстояний до центроидов уменьшается постепенно, что указывает на потенциально большое число кластеров. Силуэтный анализ показывает, что после четырёх кластеров показатель резко уменьшается, что говорит об ухудшении качества разделения: объекты дальше от своего кластера, чем от соседнего. Оптимальное количество кластеров равняется 4.

Протестируем разные способы инициализации.

Рисунок 2 - результат тестирования

По результатам видно, что инициализации выдают одинаковые значения.

Реализуем ансамблевую кластеризацию на основе нескольких запусков K-Means с разной инициализацией для того, чтобы уменьшить влияние случайной инициализации. Запускам алгоритм несколько раз с разными начальными центрами, после чего для каждого объекта выбирается метка кластера по правилу большинства голосов.

Рисунок 3 – результат тестирования

DBSCAN

DBSCAN хорошо выделяет кластеры произвольной формы и устойчив к выбросам. Для подбора параметра eps (радиус окрестности) был построен график k-расстояний: для каждой точки вычислялось расстояние до 10-го соседа, далее значения сортировались по возрастанию и наносились на график. По характерному перегибу кривой выбиралось подходящее значение eps.

Рисунок 4 – график k-расстояний

По графику виден резкий скачок (от 1 до 2). Диапазон большой, поэтому необходимо применить перебор параметров.

Далее был запущен DBSCAN с выбранными eps и min_samples. Анализировались: число кластеров и доля точек шума, коэффициент силуэта (по точкам, не относящимся к шуму), соответствие кластеров реальным классам по ARI и NMI.

Рисунок 5 – результат тестирования

Иерархическая кластеризация

В иерархической кластеризации каждый объект сначала считается отдельным кластером, затем на каждом шаге объединяется пара ближайших кластеров. На подвыборке данных была построена дендрограмма, по которой оценивалось разумное число кластеров.

Рисунок 6 – дендограмма

Затем кластеризация выполнялась на всём масштабированном наборе данных с выбранным числом кластеров. Полученные метки оценивались по силуэту и по совпадению с target (ARI, NMI, гомогенность, полнота).

Рисунок 7 – результат тестирования

Для оценки масштабируемости измерялось время работы алгоритма на подвыборках разного размера. С ростом числа объектов время вычислений заметно увеличивалось, что подтверждает менее выгодную масштабируемость по сравнению с K-Means.

Рисунок 8 – график масштабируемости

Оценка качества

Для всех методов (базовый K-Means, ансамблевый K-Means, DBSCAN и иерархическая кластеризация) были посчитаны ARI, NMI, гомогенность и полнота относительно target.

Рисунок 9 – метрики k-средних

Рисунок 10 – метрики ансамблевого k-средних

Рисунок 11 – метрики DBSCAN

Рисунок 12 – метрики иерархической кластеризации

Сравнение с реальными классами и визуализация

Визуализация проводилась с помощью двумерных диаграмм рассеяния по паре признаков PM2.5 и PM10:

Рисунок 13 – визуализация

Оценка устойчивости кластеров

Устойчивость кластеризации K-Means проверялась с помощью многократной подвыборки данных: несколько раз выбирались случайные подвыборки фиксированного размера -> на каждой подвыборке обучался k-means с одинаковым числом кластеров -> для каждой пары запусков вычислялся ARI на пересечении объектов.

Рисунок 14 – матрица ARI

Значения ARI между запускaми оказались близки к нулю, что говорит о слабой устойчивости кластерной структуры: небольшие изменения в выборке заметно меняют разбиение.

Выводы

В ходе лабораторной работы были изучены и реализованы основные методы кластеризации данных: метод K-средних, алгоритм DBSCAN и агломеративная иерархическая кластеризация. Была выполнена предобработка и масштабирование числовых признаков набора данных о загрязнении воздуха. Для K-Means проведён подбор числа кластеров и реализован ансамблевый вариант, для DBSCAN параметры подобраны по графику k-расстояний, для иерархической кластеризации исследована масштабируемость по времени работы.

Полученные кластеры были сопоставлены с реальными категориями качества воздуха из столбца target. Значения ARI и NMI оказались невысокими, что показывает, что естественная геометрия данных не совпадает с заданной человеком разметкой. Визуальный анализ диаграмм рассеяния и проверка устойчивости через подвыборки подтверждают отсутствие ярко выраженной стабильной кластерной структуры.

При этом цели работы достигнуты: освоены методы кластеризации, приёмы предобработки, подходы к оценке качества кластеров и их устойчивости.

Соседние файлы в папке Мага. 1 семестр