- •Аннотация
- •Содержание
- •Введение
- •1 Теоретические основы Data Mining
- •1.1 Понятие Data Mining и этапы процесса kdd
- •1.2 Подготовка данных: очистка, нормализация и выбор признаков
- •1.3 Обучение с учителем: классификация и регрессия
- •2 Алгоритмы классификации
- •2.1 Постановка задачи классификации
- •2.2 Логические методы: Деревья решений
- •2.3 Вероятностные методы: Наивный байесовский классификатор
- •2.4 Метрические методы: k-ближайших соседей (k-nn)
- •2.5 Метод опорных векторов (svm)
- •2.6 Метрики оценки качества классификации
- •3 Алгоритмы регрессии
- •3.1 Постановка задачи регрессии
- •3.2 Линейная регрессия
- •3.3 Логистическая регрессия
- •3.4 Метрики оценки качества регрессии
- •Заключение
- •Список используемых источников
2.6 Метрики оценки качества классификации
Для оценки работы алгоритмов используется матрица ошибок (Confusion Matrix), на основе которой рассчитываются ключевые метрики:
Accuracy (Точность) — доля правильных ответов:
(7)
Precision (Точность срабатывания) — доля объектов, действительно принадлежащих классу, среди всех, кого алгоритм отнес к этому классу:
(8)
Recall (Полнота) — какую долю объектов класса алгоритм смог найти:
(9)
где
(True Positive) — верно классифицированные
положительные объекты,
— верно отрицательны,
– ложноположительные (ошибка 1-ого
рода),
– ложноотрицательные (ошибка 2-ого
рода).
3 Алгоритмы регрессии
3.1 Постановка задачи регрессии
Задача регрессии
возникает, когда целевая переменная
не является меткой класса, а представляет
собой действительное число (
).
Цель регрессионного анализа — определить
функциональную зависимость между
вектором признаков
и целевой переменной
,
чтобы предсказывать значения для новых
объектов.
3.2 Линейная регрессия
Линейная регрессия — самый простой и часто используемый метод восстановления регрессии. Модель предполагает, что зависимость между признаками и целевой переменной линейна:
(10)
где
– веса модели (коэффициенты регрессии),
а
– случайная ошибка.
Для нахождения
оптимальных весов чаще всего используется
Метод наименьших квадратов (МНК). Суть
метода заключается в минимизации суммы
квадратов отклонений между реальными
значениями
и предсказанными моделью
.
(11)
Графическая интерпретация простой линейной регрессии представлена на Рисунке 6.
Рисунок 6 – графическое представление линейной регрессии
3.3 Логистическая регрессия
Несмотря на название, логистическая регрессия используется для решения задач классификации (чаще всего бинарной). Она предсказывает не класс объекта напрямую, а вероятность его принадлежности к классу «1».
Для этого используется сигмоидальная функция (сигмоида), которая преобразует выход линейной модели в число от 0 до 1:
(12)
где
– линейная комбинация признаков. Если
вероятность
,
объект относится к первому классу, иначе
– к нулевому [10].
3.4 Метрики оценки качества регрессии
Для оценки точности регрессионных моделей используются следующие метрики:
MSE (Mean Squared Error) — среднеквадратичная ошибка. Сильно штрафует за большие отклонения.
(13)
MAE (Mean Absolute Error) — средняя абсолютная ошибка. Легче интерпретируется (ошибка в тех же единицах, что и данные).
(14)
Коэффициент детерминации (
)
— показывает, какую долю дисперсии
(разброса) зависимой переменной объясняет
модель. Значение 1 означает идеальное
предсказание. Метрика, которая показывает,
насколько твоя модель лучше, чем если
бы мы просто взяли среднее значение по
всем ответам и предсказывали его для
всех.
- Если
,
модель работает идеально.
- Если
,
модель работает так же, как простое
предсказание среднего (то есть модель
бесполезна).
- Если
,
модель работает хуже, чем простое
среднее.
(15)
где
– реальное значение,
– предсказанное значение,
– среднее значение целевой переменной
по всей выборке (сумма всех
,
деленная на их количество).
