реферат / Наволоцкий_1302_DATA-MINING-классификация-регрессия_v1
.pdf
Рисунок 3 - Пример структуры дерева решений
Недостатком одиночных деревьев является склонность к переобучению.
Для решения этой проблемы используются ансамблевые методы, такие как Случайный лес (Random Forest), который строит множество деревьев на случайных подвыборках и усредняет их ответы.
2.3 Вероятностные методы: Наивный байесовский классификатор
Наивный байесовский классификатор (Naive Bayes) основан на теореме Байеса. «Наивным» он называется из-за допущения, что все признаки объекта независимы друг от друга при условии известного класса. Вероятность того,
что объект принадлежит классу , рассчитывается по формуле:
(|) = ( | )( ) (4) ( )
С учетом предположения о независимости признаков 1, … , , наиболее вероятный класс выбирается следующим образом:
= max ( ) ∏=1 ( |) (5)
Несмотря на простоту, метод показывает высокую эффективность в задачах классификации текстов (например, фильтрация спама) [8].
11
2.4 Метрические методы: k-ближайших соседей (k-NN)
Метод k-ближайших соседей (k-Nearest Neighbors) относится к методам
«ленивого обучения» (lazy learning), так как явная фаза обучения отсутствует:
алгоритм просто запоминает обучающую выборку.
Чтобы классифицировать новый объект, алгоритм находит объектов из обучающей выборки, расстояние до которых минимально. Объект относится к тому классу, который является наиболее популярным среди его соседей.
В качестве метрики расстояния в -мерном пространстве чаще всего используется Евклидово расстояние:
( , ) = √∑=1( − )2 (6)
Графическая интерпретация метода представлена на Рисунке 4.
Рисунок 4 – принципе работы классификатора k-ближайших соседей
12
2.5 Метод опорных векторов (SVM)
Метод опорных векторов (Support Vector Machine) — это алгоритм,
который решает задачу классификации с помощью геометрии.
Чтобы понять суть метода, представим объекты двух классов как точки на плоскости. Задача алгоритма — провести прямую линию, которая отделит точки одного класса от точек другого. Однако таких линий можно провести бесконечно много.
Главная идея SVM заключается в том, чтобы найти оптимальную линию.
Оптимальной считается такая линия, которая проходит посередине самой широкой «разделяющей полосы» (зазора) между классами.
Ключевые понятия метода:
Разделяющая гиперплоскость — это та самая граница (линия в 2D,
плоскость в 3D), которая делит классы.
Зазор (Margin) — это расстояние от разделяющей линии до ближайших точек каждого класса. Чем шире этот зазор, тем увереннее алгоритм будет работать на новых данных.
Опорные вектора — это те самые ближайшие к границе точки данных, которые «подпирают» границы зазора. Именно они определяют, где пройдет линия. Остальные точки, находящиеся далеко от границы, на построение модели не влияют [9].
Если данные невозможно разделить прямой линией (например, один класс окружает другой), SVM использует «ядерный трюк» (kernel trick).
Алгоритм как бы переносит данные из плоского пространства в трехмерное
(или многомерное). В новом пространстве точки поднимаются на разную высоту, и их становится возможно разделить плоскостью.
На Рисунке 5 показана схема работы метода: сплошная линия — это граница решения, а пунктирные линии показывают ширину зазора, который опирается на крайние точки (опорные вектора).
13
Рисунок 5 – геометрическая интерпретация метода SVM
2.6 Метрики оценки качества классификации
Для оценки работы алгоритмов используется матрица ошибок
(Confusion Matrix), на основе которой рассчитываются ключевые метрики:
Accuracy (Точность) — доля правильных ответов:
+= + + + (7)
Precision (Точность срабатывания) — доля объектов, действительно принадлежащих классу, среди всех, кого алгоритм отнес к этому классу:
= (8)
+
Recall (Полнота) — какую долю объектов класса алгоритм смог найти:
= + (9)
где (True Positive) — верно классифицированные положительные объекты, — верно отрицательны, – ложноположительные (ошибка 1-
ого рода), – ложноотрицательные (ошибка 2-ого рода).
14
3 Алгоритмы регрессии
3.1 Постановка задачи регрессии
Задача регрессии возникает, когда целевая переменная не является меткой класса, а представляет собой действительное число ( ). Цель регрессионного анализа — определить функциональную зависимость между вектором признаков и целевой переменной , чтобы предсказывать значения для новых объектов.
3.2 Линейная регрессия
Линейная регрессия — самый простой и часто используемый метод восстановления регрессии. Модель предполагает, что зависимость между признаками и целевой переменной линейна:
= 0 + 1 1 + 2 2 + + + + (10)
где 0, … , – веса модели (коэффициенты регрессии), а – случайная ошибка.
Для нахождения оптимальных весов чаще всего используется Метод наименьших квадратов (МНК). Суть метода заключается в минимизации суммы квадратов отклонений между реальными значениями и
предсказанными моделью ̂.
( ) = ∑=1( − ̂)2 → (11)
Графическая интерпретация простой линейной регрессии представлена на Рисунке 6.
Рисунок 6 – графическое представление линейной регрессии
15
3.3 Логистическая регрессия
Несмотря на название, логистическая регрессия используется для решения задач классификации (чаще всего бинарной). Она предсказывает не класс объекта напрямую, а вероятность его принадлежности к классу «1».
Для этого используется сигмоидальная функция (сигмоида), которая преобразует выход линейной модели в число от 0 до 1:
( = 1| ) = ( ) = 1+1− (12)
где – линейная комбинация признаков. Если вероятность > 0.5,
объект относится к первому классу, иначе – к нулевому [10].
3.4 Метрики оценки качества регрессии
Для оценки точности регрессионных моделей используются следующие метрики:
MSE (Mean Squared Error) — среднеквадратичная ошибка. Сильно штрафует за большие отклонения.
|
= |
1 |
∑ |
|
( |
− ̂)2 |
(13) |
||
|
|
|
|||||||
|
|
|
|
|
=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
MAE (Mean Absolute Error) — средняя абсолютная ошибка. Легче |
||||||||
интерпретируется (ошибка в тех же единицах, что и данные). |
|||||||||
|
= |
|
1 |
∑ |
| − ̂| |
(14) |
|||
|
|
|
|||||||
|
|
|
|
|
=1 |
|
|
||
|
|
|
|
|
|
|
|
||
|
Коэффициент детерминации |
(R2) — |
показывает, какую долю |
||||||
дисперсии (разброса) зависимой переменной объясняет модель. Значение 1
означает идеальное предсказание. Метрика, которая показывает, насколько твоя модель лучше, чем если бы мы просто взяли среднее значение по всем
ответам |
|
и |
предсказывали |
его |
для |
всех. |
|
- |
Если |
R2 = 1, |
модель |
работает |
|
идеально. |
|
- Если R2 |
= 0, модель работает так же, как простое предсказание среднего (то |
||||||
есть |
|
|
|
модель |
|
|
бесполезна). |
- Если R2 |
< 0, модель работает хуже, чем простое среднее. |
|
|
||||
|
|
|
|
16 |
|
|
|
R2 = 1 − ∑ =1( − ̂ )2 (15)
∑=1( − ̅)2
где – реальное значение, ̂ – предсказанное значение, ̅ – среднее значение целевой переменной по всей выборке (сумма всех , деленная на их
количество).
17
ЗАКЛЮЧЕНИЕ
В ходе выполнения реферата были рассмотрены теоретические основы технологий Data Mining и подробно проанализированы два ключевых класса задач обучения с учителем: классификация и регрессия.
Классификация применяется для отнесения объектов к заранее известным категориям. Среди рассмотренных методов (деревья решений,
наивный Байес, k-NN, SVM) нет универсального алгоритма. Выбор зависит от размера выборки, размерности данных и требований к интерпретируемости.
Например, деревья решений легко интерпретировать, а SVM обеспечивает высокую точность на сложных данных.
Регрессия позволяет прогнозировать числовые показатели.
Линейная регрессия является базовым инструментом аналитика благодаря своей простоте и скорости, однако для сложных зависимостей требуются нелинейные методы или ансамбли моделей.
Успех применения описанных алгоритмов в распределенных информационных системах зависит не только от математического аппарата,
но и от качества предварительной обработки данных. Современные тенденции в Data Mining направлены на автоматизацию этих процессов и использование комбинированных (гибридных) моделей для повышения точности прогнозов.
18
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ
1.Барсегян А. А., Куприянов М. С., Степаненко В. В., Холод И. И.
Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP.
—2-е изд. — СПб.: БХВ-Петербург, 2008. — 384 с.
2.Горячев А. В., Новакова Н. Е. Управление знаниями в распределенной информационной среде: Учеб. пособие. — СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2009.
3.Новакова Н. Е. Модели и методы принятия проектных решений в сложноструктурированных предметных областях: Монография. — СПб.:
Изд-во СПбГЭТУ «ЛЭТИ», 2010.
4.Вьюгин В. В. Математические основы теории машинного обучения и прогнозирования. — М.: МЦНМО, 2013. — 387 с.
5.Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. — М.: ДМК Пресс, 2015.
—400 с.
6.Рашка С. Python и машинное обучение. — М.: ДМК Пресс, 2017.
—418 с.
7.Хасти Т., Тибширани Р., Фридман Дж. Основы статистического обучения. — М.: Вильямс, 2020. — 768 с.
8.Воронцов К. В. Математические методы обучения по прецедентам (Теория обучения машин). — М.: МФТИ, 2011.
9.Breiman L. Random Forests // Machine Learning. — 2001. — Vol. 45, No. 1. — P. 5–32.
10.Chapman P., Clinton J., Kerber R. et al. CRISP-DM 1.0: Step-by-step data mining guide. — SPSS Inc., 2000.
19
