- •Лекция 1. Введение в Data Mining
- •Отличия Data Mining от других методов анализа данных
- •1. Применение технологии Data Mining для решения бизнес-задач Банковское дело. Data Mining используется в банковской сфере для решения задач:
- •Фондовый рынок. Задачи фондового рынка, решаемые при помощи Data Mining:
- •2. Применение Data Mining для решения задач государственного уровня
- •Лекция 3. Задачи Data Mining. Классификация и кластеризация. Одними из основных задач анализа данных являются классификация и кластеризация. Задача классификации
- •Процесс классификации
- •Методы, применяемые для решения задач классификации
- •Точность классификации: оценка уровня ошибок
- •Оценивание классификационных методов
- •Задача кластеризации
- •Оценка качества кластеризации
- •Практика применения кластерного анализа в маркетинговых исследованиях
- •Этап 3. Подготовка данных
- •Определение необходимого количества данных - следует учитывать, являются ли данные упорядоченными или нет.
- •3. Предварительная обработка данных – необходима для обеспечения качественного анализа
- •4. Очистка данных - выявление и удаление ошибок и несоответствий в данных с целью улучшения качества данных.
- •Этапы очистки данных:
- •Лекция 4. Деревья решений.
- •Преимущества деревьев решений:
- •Процесс конструирования дерева решений
- •Критерий расщепления
- •Большое дерево не означает, что оно "подходящее"
- •Сокращение дерева или отсечение ветвей
- •Алгоритмы
- •Алгоритм cart
Процесс классификации
Цель процесса классификации - построить модель, которая использует прогнозирующие атрибуты в качестве входных параметров и получает значение зависимого атрибута. Процесс классификации - в разбиении множества объектов на классы по определенному критерию.
Классификатором называется сущность, определяющая, какому из предопределенных классов принадлежит объект по вектору признаков.
Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием в примере выступает БД. Каждый объект (запись БД) несет информацию о некотором свойстве объекта.
Набор исходных данных (выборку) разбивают на два множества: обучающее и тестовое.
Обучающее множество (training set) - множество, которое включает данные, использующиеся для обучения (конструирования) модели. Такое множество содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обучения модели.
Тестовое (test set) множество также содержит входные и выходные значения примеров. Здесь выходные значения используются для проверки работоспособности модели.
Процесс классификации состоит из двух этапов: конструирования модели и ее использования.
Этап 1. Конструирование модели: описание множества предопределенных классов.
Каждый пример набора данных относится к одному предопределенному классу.
Используется обучающее множество, на нем происходит конструирование модели.
Полученная модель может быть представлена классификационными правилами, деревом решений или математической формулой.
Этап 2. Использование модели: классификация новых или неизвестных значений.
Оценка правильности (точности) модели.
2.1. Известные значения из тестового примера сравниваются с результатами использования полученной модели.
2.2. Уровень точности - процент правильно классифицированных примеров в тестовом множестве.
2.3. Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.
Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.
Методы, применяемые для решения задач классификации
Для классификации используются различные методы. Основными из них являются:
классификация с помощью деревьев решений;
байесовская (наивная) классификация;
классификация при помощи искусственных нейронных сетей;
классификация методом опорных векторов;
статистические методы, в частности, линейная регрессия;
классификация при помощи метода ближайшего соседа;
классификация CBR-методом;
классификация при помощи генетических алгоритмов.
Схематическое решение задачи классификации некоторыми методами (при помощи линейной регрессии, деревьев решений и нейронных сетей) приведены на рис. 3.2 (а-в).
(а)- метод линейной регрессии (б) - метод деревьев решений
(в) - метод нейронных сетей
Рис. 3.2. Решение задачи классификации различными методами
