Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
реферат / Наволоцкий_1302_DATA-MINING-классификация-регрессия_v1.docx
Скачиваний:
0
Добавлен:
27.12.2025
Размер:
255.12 Кб
Скачать

2.6 Метрики оценки качества классификации

Для оценки работы алгоритмов используется матрица ошибок (Confusion Matrix), на основе которой рассчитываются ключевые метрики:

  • Accuracy (Точность) — доля правильных ответов:

(7)

  • Precision (Точность срабатывания) — доля объектов, действительно принадлежащих классу, среди всех, кого алгоритм отнес к этому классу:

(8)

  • Recall (Полнота) — какую долю объектов класса алгоритм смог найти:

(9)

где (True Positive) — верно классифицированные положительные объекты, — верно отрицательны, – ложноположительные (ошибка 1-ого рода), – ложноотрицательные (ошибка 2-ого рода).

3 Алгоритмы регрессии

3.1 Постановка задачи регрессии

Задача регрессии возникает, когда целевая переменная не является меткой класса, а представляет собой действительное число ( ). Цель регрессионного анализа — определить функциональную зависимость между вектором признаков и целевой переменной , чтобы предсказывать значения для новых объектов.

3.2 Линейная регрессия

Линейная регрессия — самый простой и часто используемый метод восстановления регрессии. Модель предполагает, что зависимость между признаками и целевой переменной линейна:

(10)

где – веса модели (коэффициенты регрессии), а – случайная ошибка.

Для нахождения оптимальных весов чаще всего используется Метод наименьших квадратов (МНК). Суть метода заключается в минимизации суммы квадратов отклонений между реальными значениями и предсказанными моделью .

(11)

Графическая интерпретация простой линейной регрессии представлена на Рисунке 6.

Рисунок 6 – графическое представление линейной регрессии

3.3 Логистическая регрессия

Несмотря на название, логистическая регрессия используется для решения задач классификации (чаще всего бинарной). Она предсказывает не класс объекта напрямую, а вероятность его принадлежности к классу «1».

Для этого используется сигмоидальная функция (сигмоида), которая преобразует выход линейной модели в число от 0 до 1:

(12)

где – линейная комбинация признаков. Если вероятность , объект относится к первому классу, иначе – к нулевому [10].

3.4 Метрики оценки качества регрессии

Для оценки точности регрессионных моделей используются следующие метрики:

  • MSE (Mean Squared Error) — среднеквадратичная ошибка. Сильно штрафует за большие отклонения.

(13)

  • MAE (Mean Absolute Error) — средняя абсолютная ошибка. Легче интерпретируется (ошибка в тех же единицах, что и данные).

(14)

  • Коэффициент детерминации ( ) — показывает, какую долю дисперсии (разброса) зависимой переменной объясняет модель. Значение 1 означает идеальное предсказание. Метрика, которая показывает, насколько твоя модель лучше, чем если бы мы просто взяли среднее значение по всем ответам и предсказывали его для всех. - Если , модель работает идеально. - Если , модель работает так же, как простое предсказание среднего (то есть модель бесполезна). - Если , модель работает хуже, чем простое среднее.

(15)

где – реальное значение, – предсказанное значение, – среднее значение целевой переменной по всей выборке (сумма всех , деленная на их количество).