- •Аннотация
- •Содержание
- •Введение
- •1 Теоретические основы Data Mining
- •1.1 Понятие Data Mining и этапы процесса kdd
- •1.2 Подготовка данных: очистка, нормализация и выбор признаков
- •1.3 Обучение с учителем: классификация и регрессия
- •2 Алгоритмы классификации
- •2.1 Постановка задачи классификации
- •2.2 Логические методы: Деревья решений
- •2.3 Вероятностные методы: Наивный байесовский классификатор
- •2.4 Метрические методы: k-ближайших соседей (k-nn)
- •2.5 Метод опорных векторов (svm)
- •2.6 Метрики оценки качества классификации
- •3 Алгоритмы регрессии
- •3.1 Постановка задачи регрессии
- •3.2 Линейная регрессия
- •3.3 Логистическая регрессия
- •3.4 Метрики оценки качества регрессии
- •Заключение
- •Список используемых источников
Заключение
В ходе выполнения реферата были рассмотрены теоретические основы технологий Data Mining и подробно проанализированы два ключевых класса задач обучения с учителем: классификация и регрессия.
Классификация применяется для отнесения объектов к заранее известным категориям. Среди рассмотренных методов (деревья решений, наивный Байес, k-NN, SVM) нет универсального алгоритма. Выбор зависит от размера выборки, размерности данных и требований к интерпретируемости. Например, деревья решений легко интерпретировать, а SVM обеспечивает высокую точность на сложных данных.
Регрессия позволяет прогнозировать числовые показатели. Линейная регрессия является базовым инструментом аналитика благодаря своей простоте и скорости, однако для сложных зависимостей требуются нелинейные методы или ансамбли моделей.
Успех применения описанных алгоритмов в распределенных информационных системах зависит не только от математического аппарата, но и от качества предварительной обработки данных. Современные тенденции в Data Mining направлены на автоматизацию этих процессов и использование комбинированных (гибридных) моделей для повышения точности прогнозов.
Список используемых источников
Барсегян А. А., Куприянов М. С., Степаненко В. В., Холод И. И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. — 2-е изд. — СПб.: БХВ-Петербург, 2008. — 384 с.
Горячев А. В., Новакова Н. Е. Управление знаниями в распределенной информационной среде: Учеб. пособие. — СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2009.
Новакова Н. Е. Модели и методы принятия проектных решений в сложноструктурированных предметных областях: Монография. — СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2010.
Вьюгин В. В. Математические основы теории машинного обучения и прогнозирования. — М.: МЦНМО, 2013. — 387 с.
Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. — М.: ДМК Пресс, 2015. — 400 с.
Рашка С. Python и машинное обучение. — М.: ДМК Пресс, 2017. — 418 с.
Хасти Т., Тибширани Р., Фридман Дж. Основы статистического обучения. — М.: Вильямс, 2020. — 768 с.
Воронцов К. В. Математические методы обучения по прецедентам (Теория обучения машин). — М.: МФТИ, 2011.
Breiman L. Random Forests // Machine Learning. — 2001. — Vol. 45, No. 1. — P. 5–32.
Chapman P., Clinton J., Kerber R. et al. CRISP-DM 1.0: Step-by-step data mining guide. — SPSS Inc., 2000.
