|
|
|
МИНОБРНАУКИ РОССИИ
Санкт-Петербургский государственный
электротехнический университет
«ЛЭТИ» им. В.И. Ульянова (Ленина)
Кафедра вычислительной техники
отчет
по лабораторной работе №3
по дисциплине «Машинное обучение»
Тема: Регрессия
Студентка гр. 1308 |
_______________ |
Кочубей Е.Д. |
Преподаватель |
_______________ |
Турсуков Н.О. |
Санкт-Петербург
2025
Цель работы
Получение и закрепление навыков предобработки данных и применения методов машинного обучения для решения задач регрессии.
Задачи
Обучение моделей и подбор параметров:
Линейная регрессия, LASSO, Ridge регрессия.
Random Forest Regression.
Градиентный бустинг.
Оценка моделей:
Вывод метрик и построение графиков.
График прогноза изменений значений – сравнить результаты модели с реальными данными на выборке, не участвующей в обучении.
Визуализация предсказанных значений.
Провести кросс-валидацию устойчивости кластеров через многократную подвыборку данных.
Датасэт
Выбранный датасэт: https://www.kaggle.com/datasets/rohanrao/air-quality-data-in-india?select=city_day.csv. Содержит в себе данные по загрязнению воздуха в разных городах Индии. Включает в себя ключевые параметры, с помощью которых высчитывается степень удовлетворённости загрязнения.
Ход работы
Линейная регрессия
В качестве базовой модели используем линейную регрессию, которая позволяет оценить, насколько задача решаема простыми линейными зависимостями. Это модель без регрессии, но несмотря на свою простоту, она показала хороший результат.
Рисунок 1 – предсказанные и истинные значения
LASSO регрессия
Добавляет L1-регуляризацию, может занулять незначимые коэффициенты, то есть автоматически отбирает признаки. Штрафует сумму абсолютных значений коэффициентов.
Рисунок 2 – предсказанные и истинные значения
Ridge регрессия
Использует L2-регуляризацию, уменьшает значения коэффициентов, но не зануляет их. Штрафует сумму квадратов коэффициентов.
Рисунок 3 – предсказанные и истинные значения
Сравнение линейных моделей
Для всех методов были посчитаны MSE, RMSE, MAE и R2.
Рисунок 4 – столбчатые графики сравнения метрик
Рисунок 5 – таблица сравнения метрик
Мини-пояснение к метрикам:
MSE (Mean Squared Error) – показывает среднюю квадратичную ошибку, чем меньше, тем лучше.
RMSE (Root Mean Squared Error) – это корень из MSE, показывает среднюю ошибку в единицах целевой переменной.
MAE (Mean Absolute Error) – средняя абсолютная ошибка.
R² (коэффициент детерминации) – показывает, какую долю вариации целевой переменной объясняет модель, чем ближе к 1 — тем лучше.
Лучший результат MSE у LASSO: 2438.77, но разница с остальными моделями минимальна.
У всех моделей RMSE ≈ 49.4, то есть в среднем модель ошибается примерно на 49 единиц. Разница между моделями — сотые доли, то есть практически незначима.
Минимальный MAE снова у LASSO (31.06), но отличие очень маленькое.
Все модели имеют R² ≈ 0.864, то есть около 86% вариации целевой переменной объясняется моделью, что является достаточно хорошим результатом для линейной модели.
Поскольку все линейные модели показали почти одинаковое качество, можно сделать вывод, что данные хорошо описываются линейной зависимостью, а регуляризация не играет решающей роли в данной задаче.
Random Forest Regressor
Ансамблевая модель, состоящая из множества решающих деревьев, итоговое предсказание получается усреднением результатов всех деревьев. Она хорошо работает с нелинейными зависимостями и менее чувствительна к шуму в данных.
Рисунок 6 – предсказанные и истинные значения
Градиентный бустинг
Используем градиентный бустинг, который последовательно обучает деревья, каждое из которых исправляет ошибки предыдущих.
Рисунок 7 – предсказанные и истинные значения
Оценка моделей
Теперь сравним между собой по метрикам линейные модели и ансамблевые.
Рисунок 8 – столбчатые графики сравнения метрик
Рисунок 9 – таблица сравнения метрик
Как видно из таблицы, лучшие результаты во всех параметрах у Random Forest Regression. То есть ансамблевая реализация значительно улучшила качество модели.
Графики прогноза и реальных данных
Рисунок 10 – графики предсказанных и реальных значений (лучшие модели)
Рисунок 11 – графики предсказанных и реальных значений (линейные модели)
Графики изменения значений
Рисунок 12 – временные ряды графиков
Выводы
В данной лабораторной работе были реализованы и сравнены модели регрессии. Все модели прошли предварительную обработку данных (очитка, нормализация, кодирование). Для каждой модели был выполнен подбор гиперпараметров. Оценка моделей проводилась по метрикам: MSE, RMSE, MAE, R2. Построены графики прогнозов и реальных данных для визуализации анализа качества моделей. Проанализирована важность признаков для древесных моделей
В результате лабораторной работы мы убедились, что корректная предобработка данных и использование ансамблевых методов позволяют существенно улучшить качество регрессионных моделей.
|
|
|
