Добавил:
liisakochik@gmail.com Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Мага. 1 семестр / КочубейЕД_1308_лаб3

.docx
Скачиваний:
0
Добавлен:
04.01.2026
Размер:
946.95 Кб
Скачать

МИНОБРНАУКИ РОССИИ

Санкт-Петербургский государственный

электротехнический университет

«ЛЭТИ» им. В.И. Ульянова (Ленина)

Кафедра вычислительной техники

отчет

по лабораторной работе №3

по дисциплине «Машинное обучение»

Тема: Регрессия

Студентка гр. 1308

_______________

Кочубей Е.Д.

Преподаватель

_______________

Турсуков Н.О.

Санкт-Петербург

2025

Цель работы

Получение и закрепление навыков предобработки данных и применения методов машинного обучения для решения задач регрессии.

Задачи

  1. Обучение моделей и подбор параметров:

  1. Линейная регрессия, LASSO, Ridge регрессия.

  2. Random Forest Regression.

  3. Градиентный бустинг.

  1. Оценка моделей:

  1. Вывод метрик и построение графиков.

  2. График прогноза изменений значений – сравнить результаты модели с реальными данными на выборке, не участвующей в обучении.

  3. Визуализация предсказанных значений.

  4. Провести кросс-валидацию устойчивости  кластеров через многократную подвыборку данных.

Датасэт

Выбранный датасэт: https://www.kaggle.com/datasets/rohanrao/air-quality-data-in-india?select=city_day.csv. Содержит в себе данные по загрязнению воздуха в разных городах Индии. Включает в себя ключевые параметры, с помощью которых высчитывается степень удовлетворённости загрязнения.

Ход работы

Линейная регрессия

В качестве базовой модели используем линейную регрессию, которая позволяет оценить, насколько задача решаема простыми линейными зависимостями. Это модель без регрессии, но несмотря на свою простоту, она показала хороший результат.

Рисунок 1 – предсказанные и истинные значения

LASSO регрессия

Добавляет L1-регуляризацию, может занулять незначимые коэффициенты, то есть автоматически отбирает признаки. Штрафует сумму абсолютных значений коэффициентов.

Рисунок 2 – предсказанные и истинные значения

Ridge регрессия

Использует L2-регуляризацию, уменьшает значения коэффициентов, но не зануляет их. Штрафует сумму квадратов коэффициентов.

Рисунок 3 – предсказанные и истинные значения

Сравнение линейных моделей

Для всех методов были посчитаны MSE, RMSE, MAE и R2.

Рисунок 4 – столбчатые графики сравнения метрик

Рисунок 5 – таблица сравнения метрик

Мини-пояснение к метрикам:

MSE (Mean Squared Error) – показывает среднюю квадратичную ошибку, чем меньше, тем лучше.

RMSE (Root Mean Squared Error) – это корень из MSE, показывает среднюю ошибку в единицах целевой переменной.

MAE (Mean Absolute Error) – средняя абсолютная ошибка.

R² (коэффициент детерминации) – показывает, какую долю вариации целевой переменной объясняет модель, чем ближе к 1 — тем лучше.

Лучший результат MSE у LASSO: 2438.77, но разница с остальными моделями минимальна.

У всех моделей RMSE ≈ 49.4, то есть в среднем модель ошибается примерно на 49 единиц. Разница между моделями — сотые доли, то есть практически незначима.

Минимальный MAE снова у LASSO (31.06), но отличие очень маленькое.

Все модели имеют R² ≈ 0.864, то есть около 86% вариации целевой переменной объясняется моделью, что является достаточно хорошим результатом для линейной модели.

Поскольку все линейные модели показали почти одинаковое качество, можно сделать вывод, что данные хорошо описываются линейной зависимостью, а регуляризация не играет решающей роли в данной задаче.

Random Forest Regressor

Ансамблевая модель, состоящая из множества решающих деревьев, итоговое предсказание получается усреднением результатов всех деревьев. Она хорошо работает с нелинейными зависимостями и менее чувствительна к шуму в данных.

Рисунок 6 – предсказанные и истинные значения

Градиентный бустинг

Используем градиентный бустинг, который последовательно обучает деревья, каждое из которых исправляет ошибки предыдущих.

Рисунок 7 – предсказанные и истинные значения

Оценка моделей

Теперь сравним между собой по метрикам линейные модели и ансамблевые.

Рисунок 8 – столбчатые графики сравнения метрик

Рисунок 9 – таблица сравнения метрик

Как видно из таблицы, лучшие результаты во всех параметрах у Random Forest Regression. То есть ансамблевая реализация значительно улучшила качество модели.

Графики прогноза и реальных данных

Рисунок 10 – графики предсказанных и реальных значений (лучшие модели)

Рисунок 11 – графики предсказанных и реальных значений (линейные модели)

Графики изменения значений

Рисунок 12 – временные ряды графиков

Выводы

В данной лабораторной работе были реализованы и сравнены модели регрессии. Все модели прошли предварительную обработку данных (очитка, нормализация, кодирование). Для каждой модели был выполнен подбор гиперпараметров. Оценка моделей проводилась по метрикам: MSE, RMSE, MAE, R2. Построены графики прогнозов и реальных данных для визуализации анализа качества моделей. Проанализирована важность признаков для древесных моделей

В результате лабораторной работы мы убедились, что корректная предобработка данных и использование ансамблевых методов позволяют существенно улучшить качество регрессионных моделей.

Соседние файлы в папке Мага. 1 семестр