- •Аннотация
- •Содержание
- •Введение
- •1 Теоретические основы Data Mining
- •1.1 Понятие Data Mining и этапы процесса kdd
- •1.2 Подготовка данных: очистка, нормализация и выбор признаков
- •1.3 Обучение с учителем: классификация и регрессия
- •2 Алгоритмы классификации
- •2.1 Постановка задачи классификации
- •2.2 Логические методы: Деревья решений
- •2.3 Вероятностные методы: Наивный байесовский классификатор
- •2.4 Метрические методы: k-ближайших соседей (k-nn)
- •2.5 Метод опорных векторов (svm)
- •2.6 Метрики оценки качества классификации
- •3 Алгоритмы регрессии
- •3.1 Постановка задачи регрессии
- •3.2 Линейная регрессия
- •3.3 Логистическая регрессия
- •3.4 Метрики оценки качества регрессии
- •Заключение
- •Список используемых источников
МИНОБРНАУКИ РОССИИ
Санкт-Петербургский государственный
электротехнический университет
«ЛЭТИ» им. В.И. Ульянова (Ленина)
Кафедра САПР
Реферат
по дисциплине «Распределенные базы данных и базы знаний»
Тема: «Технологии Data Mining. Алгоритмы классификации и регрессии»
Студент гр. 1302 |
|
Наволоцкий И.Р. |
Преподаватель |
|
Новакова Н.Е. |
Санкт-Петербург
2025
ЗАДАНИЕ
на реферат
Студент Наволоцкий И.Р. |
||
Группа 1302 |
||
Тема реферата: «Технологии Data Mining. Алгоритмы классификации и регрессии»
|
||
Исходные данные: Исследовать технологии data mining. В частности алгоритмы классификации и регрессии. |
||
Предполагаемый объем реферата: Не менее 15 страниц. |
||
Дата выдачи задания: 5.11.2025 |
||
Дата сдачи реферата: 12.11.2025
|
||
Дата защиты реферата: 19.11.2025 |
||
|
||
Студент |
|
Наволоцкий И.Р. |
Преподаватель |
|
Новакова Н.Е. |
Аннотация
В работе рассматриваются теоретические основы и методы технологий Data Mining. Основное внимание уделено алгоритмам обучения с учителем: задачам классификации и регрессии. Описан процесс обнаружения знаний в базах данных (KDD), этапы предварительной обработки информации, а также математические принципы работы ключевых алгоритмов, таких как деревья решений, наивный байесовский классификатор, метод k-ближайших соседей, метод опорных векторов и линейная регрессия. Приведены метрики оценки качества построенных моделей.
Summary
This paper discusses the theoretical foundations and methods of Data Mining technologies. Particular attention is paid to supervised learning algorithms: classification and regression tasks. The work describes the process of Knowledge Discovery in Databases (KDD), data preprocessing stages, and the mathematical principles of key algorithms, such as Decision Trees, Naive Bayes classifier, k-Nearest Neighbors, Support Vector Machines, and Linear Regression. Evaluation metrics for model quality are presented.
Содержание
Y
ВВЕДЕНИЕ 5
1 Теоретические основы Data Mining 6
1.1 Понятие Data Mining и этапы процесса KDD 6
1.2 Подготовка данных: очистка, нормализация и выбор признаков 7
1.3 Обучение с учителем: классификация и регрессия 8
2 Алгоритмы классификации 10
2.1 Постановка задачи классификации 10
2.2 Логические методы: Деревья решений 10
2.3 Вероятностные методы: Наивный байесовский классификатор 11
2.4 Метрические методы: k-ближайших соседей (k-NN) 12
2.5 Метод опорных векторов (SVM) 13
2.6 Метрики оценки качества классификации 14
3.1 Постановка задачи регрессии 15
3.2 Линейная регрессия 15
3.3 Логистическая регрессия 16
3.4 Метрики оценки качества регрессии 16
ЗАКЛЮЧЕНИЕ 18
Введение
В современном информационном обществе объемы накапливаемых данных растут экспоненциально. Это явление, получившее название «Big Data», ставит перед аналитиками и разработчиками информационных систем новые вызовы. Простого хранения и структурирования информации в базах данных уже недостаточно; ключевую роль играет извлечение скрытых, нетривиальных и практически полезных закономерностей. Именно эту задачу решают технологии интеллектуального анализа данных, или Data Mining [1].
Актуальность темы реферата обусловлена тем, что алгоритмы Data Mining являются основой для принятия решений в самых разных сферах: от банковского скоринга и медицинской диагностики до прогнозирования спроса в ритейле и управления сложными техническими системами. В рамках дисциплины «Распределенные базы данных и базы знаний» понимание этих алгоритмов необходимо для проектирования эффективных аналитических подсистем.
Целью данной работы является анализ основных технологий Data Mining, с фокусом на алгоритмах обучения с учителем.
Для достижения цели были поставлены следующие задачи:
Рассмотреть теоретические основы процесса обнаружения знаний (KDD).
Изучить методы предобработки данных.
Провести обзор и сравнительный анализ алгоритмов классификации.
Проанализировать методы регрессионного анализа.
Объектом исследования являются технологии Data Mining, а предметом — математические алгоритмы классификации и регрессии.
