Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

реферат / Наволоцкий_1302_DATA-MINING-классификация-регрессия_v1

.pdf
Скачиваний:
0
Добавлен:
27.12.2025
Размер:
1.11 Mб
Скачать

Рисунок 3 - Пример структуры дерева решений

Недостатком одиночных деревьев является склонность к переобучению.

Для решения этой проблемы используются ансамблевые методы, такие как Случайный лес (Random Forest), который строит множество деревьев на случайных подвыборках и усредняет их ответы.

2.3 Вероятностные методы: Наивный байесовский классификатор

Наивный байесовский классификатор (Naive Bayes) основан на теореме Байеса. «Наивным» он называется из-за допущения, что все признаки объекта независимы друг от друга при условии известного класса. Вероятность того,

что объект принадлежит классу , рассчитывается по формуле:

(|) = ( | )( ) (4) ( )

С учетом предположения о независимости признаков 1, … , , наиболее вероятный класс выбирается следующим образом:

= max ( ) ∏=1 ( |) (5)

Несмотря на простоту, метод показывает высокую эффективность в задачах классификации текстов (например, фильтрация спама) [8].

11

2.4 Метрические методы: k-ближайших соседей (k-NN)

Метод k-ближайших соседей (k-Nearest Neighbors) относится к методам

«ленивого обучения» (lazy learning), так как явная фаза обучения отсутствует:

алгоритм просто запоминает обучающую выборку.

Чтобы классифицировать новый объект, алгоритм находит объектов из обучающей выборки, расстояние до которых минимально. Объект относится к тому классу, который является наиболее популярным среди его соседей.

В качестве метрики расстояния в -мерном пространстве чаще всего используется Евклидово расстояние:

( , ) = √∑=1( − )2 (6)

Графическая интерпретация метода представлена на Рисунке 4.

Рисунок 4 – принципе работы классификатора k-ближайших соседей

12

2.5 Метод опорных векторов (SVM)

Метод опорных векторов (Support Vector Machine) — это алгоритм,

который решает задачу классификации с помощью геометрии.

Чтобы понять суть метода, представим объекты двух классов как точки на плоскости. Задача алгоритма — провести прямую линию, которая отделит точки одного класса от точек другого. Однако таких линий можно провести бесконечно много.

Главная идея SVM заключается в том, чтобы найти оптимальную линию.

Оптимальной считается такая линия, которая проходит посередине самой широкой «разделяющей полосы» (зазора) между классами.

Ключевые понятия метода:

Разделяющая гиперплоскость — это та самая граница (линия в 2D,

плоскость в 3D), которая делит классы.

Зазор (Margin) — это расстояние от разделяющей линии до ближайших точек каждого класса. Чем шире этот зазор, тем увереннее алгоритм будет работать на новых данных.

Опорные вектора — это те самые ближайшие к границе точки данных, которые «подпирают» границы зазора. Именно они определяют, где пройдет линия. Остальные точки, находящиеся далеко от границы, на построение модели не влияют [9].

Если данные невозможно разделить прямой линией (например, один класс окружает другой), SVM использует «ядерный трюк» (kernel trick).

Алгоритм как бы переносит данные из плоского пространства в трехмерное

(или многомерное). В новом пространстве точки поднимаются на разную высоту, и их становится возможно разделить плоскостью.

На Рисунке 5 показана схема работы метода: сплошная линия — это граница решения, а пунктирные линии показывают ширину зазора, который опирается на крайние точки (опорные вектора).

13

Рисунок 5 – геометрическая интерпретация метода SVM

2.6 Метрики оценки качества классификации

Для оценки работы алгоритмов используется матрица ошибок

(Confusion Matrix), на основе которой рассчитываются ключевые метрики:

Accuracy (Точность) — доля правильных ответов:

+= + + + (7)

Precision (Точность срабатывания) — доля объектов, действительно принадлежащих классу, среди всех, кого алгоритм отнес к этому классу:

= (8)

+

Recall (Полнота) — какую долю объектов класса алгоритм смог найти:

= + (9)

где (True Positive) — верно классифицированные положительные объекты, — верно отрицательны, – ложноположительные (ошибка 1-

ого рода), – ложноотрицательные (ошибка 2-ого рода).

14

3 Алгоритмы регрессии

3.1 Постановка задачи регрессии

Задача регрессии возникает, когда целевая переменная не является меткой класса, а представляет собой действительное число ( ). Цель регрессионного анализа — определить функциональную зависимость между вектором признаков и целевой переменной , чтобы предсказывать значения для новых объектов.

3.2 Линейная регрессия

Линейная регрессия — самый простой и часто используемый метод восстановления регрессии. Модель предполагает, что зависимость между признаками и целевой переменной линейна:

= 0 + 1 1 + 2 2 + + + + (10)

где 0, … , – веса модели (коэффициенты регрессии), а – случайная ошибка.

Для нахождения оптимальных весов чаще всего используется Метод наименьших квадратов (МНК). Суть метода заключается в минимизации суммы квадратов отклонений между реальными значениями и

предсказанными моделью ̂.

( ) = ∑=1( − ̂)2 (11)

Графическая интерпретация простой линейной регрессии представлена на Рисунке 6.

Рисунок 6 – графическое представление линейной регрессии

15

3.3 Логистическая регрессия

Несмотря на название, логистическая регрессия используется для решения задач классификации (чаще всего бинарной). Она предсказывает не класс объекта напрямую, а вероятность его принадлежности к классу «1».

Для этого используется сигмоидальная функция (сигмоида), которая преобразует выход линейной модели в число от 0 до 1:

( = 1| ) = ( ) = 1+1(12)

где – линейная комбинация признаков. Если вероятность > 0.5,

объект относится к первому классу, иначе – к нулевому [10].

3.4 Метрики оценки качества регрессии

Для оценки точности регрессионных моделей используются следующие метрики:

MSE (Mean Squared Error) — среднеквадратичная ошибка. Сильно штрафует за большие отклонения.

 

=

1

 

(

− ̂)2

(13)

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

MAE (Mean Absolute Error) — средняя абсолютная ошибка. Легче

интерпретируется (ошибка в тех же единицах, что и данные).

 

=

 

1

| − ̂|

(14)

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

Коэффициент детерминации

(R2) —

показывает, какую долю

дисперсии (разброса) зависимой переменной объясняет модель. Значение 1

означает идеальное предсказание. Метрика, которая показывает, насколько твоя модель лучше, чем если бы мы просто взяли среднее значение по всем

ответам

 

и

предсказывали

его

для

всех.

-

Если

R2 = 1,

модель

работает

 

идеально.

- Если R2

= 0, модель работает так же, как простое предсказание среднего (то

есть

 

 

 

модель

 

 

бесполезна).

- Если R2

< 0, модель работает хуже, чем простое среднее.

 

 

 

 

 

 

16

 

 

 

R2 = 1 − =1( − ̂ )2 (15)

=1( − ̅)2

где – реальное значение, ̂ – предсказанное значение, ̅ – среднее значение целевой переменной по всей выборке (сумма всех , деленная на их

количество).

17

ЗАКЛЮЧЕНИЕ

В ходе выполнения реферата были рассмотрены теоретические основы технологий Data Mining и подробно проанализированы два ключевых класса задач обучения с учителем: классификация и регрессия.

Классификация применяется для отнесения объектов к заранее известным категориям. Среди рассмотренных методов (деревья решений,

наивный Байес, k-NN, SVM) нет универсального алгоритма. Выбор зависит от размера выборки, размерности данных и требований к интерпретируемости.

Например, деревья решений легко интерпретировать, а SVM обеспечивает высокую точность на сложных данных.

Регрессия позволяет прогнозировать числовые показатели.

Линейная регрессия является базовым инструментом аналитика благодаря своей простоте и скорости, однако для сложных зависимостей требуются нелинейные методы или ансамбли моделей.

Успех применения описанных алгоритмов в распределенных информационных системах зависит не только от математического аппарата,

но и от качества предварительной обработки данных. Современные тенденции в Data Mining направлены на автоматизацию этих процессов и использование комбинированных (гибридных) моделей для повышения точности прогнозов.

18

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ

1.Барсегян А. А., Куприянов М. С., Степаненко В. В., Холод И. И.

Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP.

2-е изд. — СПб.: БХВ-Петербург, 2008. — 384 с.

2.Горячев А. В., Новакова Н. Е. Управление знаниями в распределенной информационной среде: Учеб. пособие. — СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2009.

3.Новакова Н. Е. Модели и методы принятия проектных решений в сложноструктурированных предметных областях: Монография. — СПб.:

Изд-во СПбГЭТУ «ЛЭТИ», 2010.

4.Вьюгин В. В. Математические основы теории машинного обучения и прогнозирования. — М.: МЦНМО, 2013. — 387 с.

5.Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. — М.: ДМК Пресс, 2015.

400 с.

6.Рашка С. Python и машинное обучение. — М.: ДМК Пресс, 2017.

418 с.

7.Хасти Т., Тибширани Р., Фридман Дж. Основы статистического обучения. — М.: Вильямс, 2020. — 768 с.

8.Воронцов К. В. Математические методы обучения по прецедентам (Теория обучения машин). — М.: МФТИ, 2011.

9.Breiman L. Random Forests // Machine Learning. — 2001. — Vol. 45, No. 1. — P. 5–32.

10.Chapman P., Clinton J., Kerber R. et al. CRISP-DM 1.0: Step-by-step data mining guide. — SPSS Inc., 2000.

19