Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
реферат / Наволоцкий_1302_DATA-MINING-классификация-регрессия_v1.docx
Скачиваний:
0
Добавлен:
27.12.2025
Размер:
255.12 Кб
Скачать

МИНОБРНАУКИ РОССИИ

Санкт-Петербургский государственный

электротехнический университет

«ЛЭТИ» им. В.И. Ульянова (Ленина)

Кафедра САПР

Реферат

по дисциплине «Распределенные базы данных и базы знаний»

Тема: «Технологии Data Mining. Алгоритмы классификации и регрессии»

Студент гр. 1302

Наволоцкий И.Р.

Преподаватель

Новакова Н.Е.

Санкт-Петербург

2025

ЗАДАНИЕ

на реферат

Студент Наволоцкий И.Р.

Группа 1302

Тема реферата: «Технологии Data Mining. Алгоритмы классификации и регрессии»

Исходные данные:

Исследовать технологии data mining. В частности алгоритмы классификации и регрессии.

Предполагаемый объем реферата:

Не менее 15 страниц.

Дата выдачи задания: 5.11.2025

Дата сдачи реферата: 12.11.2025

Дата защиты реферата: 19.11.2025

Студент

Наволоцкий И.Р.

Преподаватель

Новакова Н.Е.

Аннотация

В работе рассматриваются теоретические основы и методы технологий Data Mining. Основное внимание уделено алгоритмам обучения с учителем: задачам классификации и регрессии. Описан процесс обнаружения знаний в базах данных (KDD), этапы предварительной обработки информации, а также математические принципы работы ключевых алгоритмов, таких как деревья решений, наивный байесовский классификатор, метод k-ближайших соседей, метод опорных векторов и линейная регрессия. Приведены метрики оценки качества построенных моделей.

Summary

This paper discusses the theoretical foundations and methods of Data Mining technologies. Particular attention is paid to supervised learning algorithms: classification and regression tasks. The work describes the process of Knowledge Discovery in Databases (KDD), data preprocessing stages, and the mathematical principles of key algorithms, such as Decision Trees, Naive Bayes classifier, k-Nearest Neighbors, Support Vector Machines, and Linear Regression. Evaluation metrics for model quality are presented.

Содержание

Y

ВВЕДЕНИЕ 5

1 Теоретические основы Data Mining 6

1.1 Понятие Data Mining и этапы процесса KDD 6

1.2 Подготовка данных: очистка, нормализация и выбор признаков 7

1.3 Обучение с учителем: классификация и регрессия 8

2 Алгоритмы классификации 10

2.1 Постановка задачи классификации 10

2.2 Логические методы: Деревья решений 10

2.3 Вероятностные методы: Наивный байесовский классификатор 11

2.4 Метрические методы: k-ближайших соседей (k-NN) 12

2.5 Метод опорных векторов (SVM) 13

2.6 Метрики оценки качества классификации 14

3.1 Постановка задачи регрессии 15

3.2 Линейная регрессия 15

3.3 Логистическая регрессия 16

3.4 Метрики оценки качества регрессии 16

ЗАКЛЮЧЕНИЕ 18

Введение

В современном информационном обществе объемы накапливаемых данных растут экспоненциально. Это явление, получившее название «Big Data», ставит перед аналитиками и разработчиками информационных систем новые вызовы. Простого хранения и структурирования информации в базах данных уже недостаточно; ключевую роль играет извлечение скрытых, нетривиальных и практически полезных закономерностей. Именно эту задачу решают технологии интеллектуального анализа данных, или Data Mining [1].

Актуальность темы реферата обусловлена тем, что алгоритмы Data Mining являются основой для принятия решений в самых разных сферах: от банковского скоринга и медицинской диагностики до прогнозирования спроса в ритейле и управления сложными техническими системами. В рамках дисциплины «Распределенные базы данных и базы знаний» понимание этих алгоритмов необходимо для проектирования эффективных аналитических подсистем.

Целью данной работы является анализ основных технологий Data Mining, с фокусом на алгоритмах обучения с учителем.

Для достижения цели были поставлены следующие задачи:

  • Рассмотреть теоретические основы процесса обнаружения знаний (KDD).

  • Изучить методы предобработки данных.

  • Провести обзор и сравнительный анализ алгоритмов классификации.

  • Проанализировать методы регрессионного анализа.

Объектом исследования являются технологии Data Mining, а предметом — математические алгоритмы классификации и регрессии.