Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

реферат / Наволоцкий_1302_DATA-MINING-классификация-регрессия_v1

.pdf
Скачиваний:
0
Добавлен:
27.12.2025
Размер:
1.11 Mб
Скачать

МИНОБРНАУКИ РОССИИ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ЭЛЕКТРОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

«ЛЭТИ» ИМ. В.И. УЛЬЯНОВА (ЛЕНИНА)

Кафедра САПР

РЕФЕРАТ по дисциплине «Распределенные базы данных и базы знаний»

ТЕМА: «ТЕХНОЛОГИИ DATA MINING. АЛГОРИТМЫ КЛАССИФИКАЦИИ И

РЕГРЕССИИ»

Студент гр. 1302

 

Наволоцкий И.Р.

Преподаватель

 

 

Новакова Н.Е.

Санкт-Петербург

2025

ЗАДАНИЕ

НА РЕФЕРАТ

Студент Наволоцкий И.Р.

Группа 1302

Тема реферата: «ТЕХНОЛОГИИ DATA MINING. АЛГОРИТМЫ КЛАССИФИКАЦИИ И РЕГРЕССИИ»

Исходные данные:

Исследовать технологии data mining. В частности алгоритмы классификации и регрессии.

Предполагаемый объем реферата:

Не менее 15 страниц.

Дата выдачи задания: 5.11.2025

Дата сдачи реферата: 12.11.2025

Дата защиты реферата: 19.11.2025

Студент

 

Наволоцкий И.Р.

Преподаватель

 

Новакова Н.Е.

 

 

2

 

АННОТАЦИЯ

В работе рассматриваются теоретические основы и методы технологий

Data Mining. Основное внимание уделено алгоритмам обучения с учителем:

задачам классификации и регрессии. Описан процесс обнаружения знаний в базах данных (KDD), этапы предварительной обработки информации, а также математические принципы работы ключевых алгоритмов, таких как деревья решений, наивный байесовский классификатор, метод k-ближайших соседей,

метод опорных векторов и линейная регрессия. Приведены метрики оценки качества построенных моделей.

SUMMARY

This paper discusses the theoretical foundations and methods of Data Mining technologies. Particular attention is paid to supervised learning algorithms: classification and regression tasks. The work describes the process of Knowledge Discovery in Databases (KDD), data preprocessing stages, and the mathematical principles of key algorithms, such as Decision Trees, Naive Bayes classifier, k- Nearest Neighbors, Support Vector Machines, and Linear Regression. Evaluation metrics for model quality are presented.

3

Содержание

ВВЕДЕНИЕ...................................................................................................................................

5

1 Теоретические основы Data Mining ......................................................................................

6

1.1

Понятие Data Mining и этапы процесса KDD ..............................................................

6

1.2

Подготовка данных: очистка, нормализация и выбор признаков ..........................

7

1.3

Обучение с учителем: классификация и регрессия ....................................................

8

2 Алгоритмы классификации .................................................................................................

10

2.1

Постановка задачи классификации.............................................................................

10

2.2

Логические методы: Деревья решений .......................................................................

10

2.3

Вероятностные методы: Наивный байесовский классификатор ..........................

11

2.4

Метрические методы: k-ближайших соседей (k-NN)................................................

12

2.5

Метод опорных векторов (SVM)...................................................................................

13

2.6

Метрики оценки качества классификации................................................................

14

3.1

Постановка задачи регрессии .......................................................................................

15

3.2

Линейная регрессия ........................................................................................................

15

3.3

Логистическая регрессия ...............................................................................................

16

3.4

Метрики оценки качества регрессии ..........................................................................

16

ЗАКЛЮЧЕНИЕ .........................................................................................................................

18

4

ВВЕДЕНИЕ

В современном информационном обществе объемы накапливаемых данных растут экспоненциально. Это явление, получившее название «Big Data», ставит перед аналитиками и разработчиками информационных систем новые вызовы. Простого хранения и структурирования информации в базах данных уже недостаточно; ключевую роль играет извлечение скрытых,

нетривиальных и практически полезных закономерностей. Именно эту задачу решают технологии интеллектуального анализа данных, или Data Mining [1].

Актуальность темы реферата обусловлена тем, что алгоритмы Data Mining являются основой для принятия решений в самых разных сферах: от банковского скоринга и медицинской диагностики до прогнозирования спроса в ритейле и управления сложными техническими системами. В рамках дисциплины «Распределенные базы данных и базы знаний» понимание этих алгоритмов необходимо для проектирования эффективных аналитических подсистем.

Целью данной работы является анализ основных технологий Data Mining, с фокусом на алгоритмах обучения с учителем.

Для достижения цели были поставлены следующие задачи:

Рассмотреть теоретические основы процесса обнаружения знаний

(KDD).

Изучить методы предобработки данных.

Провести обзор и сравнительный анализ алгоритмов классификации.

Проанализировать методы регрессионного анализа.

Объектом исследования являются технологии Data Mining, а предметом

— математические алгоритмы классификации и регрессии.

5

1 Теоретические основы Data Mining

1.1 Понятие Data Mining и этапы процесса KDD

Data Mining (Интеллектуальный анализ данных) — это собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности [2].

Data Mining часто рассматривается как один из этапов более широкого процесса — KDD (Knowledge Discovery in Databases, Обнаружение знаний в базах данных). Стандартная модель процесса KDD включает в себя последовательность шагов от сырых данных до получения формализованных знаний.

На Рисунке 1 представлена схема процесса KDD, которую необходимо реализовать в рамках проектирования аналитической системы.

Рисунок 1 – схема процесса KDD

В индустрии также широко применяется методология CRISP-DM (Cross-

Industry Standard Process for Data Mining), которая подчеркивает итеративный

6

характер процесса и важность понимания бизнес-целей перед началом

моделирования [3].

1.2 Подготовка данных: очистка, нормализация и выбор признаков

Качество работы алгоритмов классификации и регрессии напрямую зависит от качества входных данных. В профессиональной среде существует принцип «Garbage In, Garbage Out» (Мусор на входе — мусор на выходе). Этап предобработки данных занимает до 80% времени всего проекта по анализу данных.

Основные задачи предобработки:

Очистка данных. Включает обработку пропущенных значений (замена средним, медианой или удаление строк) и устранение шумовых выбросов.

Кодирование категориальных признаков. Большинство алгоритмов

(кроме деревьев решений) работают только с числами, поэтому текстовые категории преобразуются в числовые векторы (например,

методы One-Hot Encoding или Label Encoding).

Масштабирование (нормализация). Алгоритмы, использующие метрики расстояния (например, k-NN или SVM), чувствительны к разному масштабу признаков.

Наиболее часто применяются два метода масштабирования:

Минимаксная нормализация, приводящая значения к диапазону [0, 1]:

 

 

 

 

 

 

 

=

 

 

 

(1)

 

 

 

 

 

 

 

 

 

 

 

 

Стандартизация (Z-score),

приводящая

данные к распределению с

нулевым средним и единичной дисперсией:

7

= (2)

где μ — среднее значение, а σ — стандартное отклонение [4].

1.3Обучение с учителем: классификация и регрессия

Вмашинном обучении и Data Mining выделяют три основных парадигмы: обучение с учителем (Supervised Learning), обучение без учителя

(Unsupervised Learning) и обучение с подкреплением (Reinforcement Learning).

Данный реферат посвящен методам обучения с учителем.

Суть обучения с учителем заключается в наличии обучающей выборки.

= {( , )} =1

где – вектор признаков объекта, а – правильный ответ (целевая переменная). Цель алгоритма — построить функцию ( ), которая с минимальной ошибкой аппроксимирует зависимость от .

Различие между классификацией и регрессией определяется типом целевой переменной :

Задача классификации: целевая переменная принимает дискретные значения из конечного множества классов = {1, … , }.

Примеры: определение спама (спам/не спам), диагностика заболеваний,

распознавание рукописных цифр.

Задача регрессии: целевая переменная принимает непрерывные значения из множества действительных чисел = . Примеры: прогноз стоимости недвижимости, предсказание температуры, оценка выручки магазина [5].

На Рисунке 2 изображено различие подходов.

8

Рисунок 2 – Графическая интерпретация задач классификации и регрессии

9

2 Алгоритмы классификации

2.1 Постановка задачи классификации

Формально задача классификации ставится следующим образом.

Пусть – пространство объектов (пространство признаков), а – конечное множество меток классов. Существует неизвестная целевая зависимость

: → , значения которой известны только на объектах обучающей выборки = ( , )=1. Требуется построить алгоритм , способный классифицировать произвольный объект [6].

2.2 Логические методы: Деревья решений

Деревья решений (Decision Trees) — это один из наиболее интерпретируемых методов Data Mining. Модель представляет собой иерархическую структуру, где каждый внутренний узел содержит условие проверки одного из признаков, а каждый лист — метку класса. Процесс построения дерева заключается в рекурсивном разбиении обучающего множества на подмножества. Критерием качества разбиения обычно служит прирост информации (Information Gain) или неопределенность Джини (Gini

Impurity).

Для вычисления прироста информации используется понятие энтропии Шеннона. Если — множество объектов в узле, то энтропия вычисляется как:

( ) = − ∑ =1 log2 (3)

где – доля объектов класса в выборке . Алгоритм выбирает тот признак и пороговое значение, которые максимизируют уменьшение энтропии после разбиения [7].

Схема дерева решений представлена на Рисунке 3.

10